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内 容 提 要 


几 年 前 ,“ 数 学 之 美 ”系列 文章 原 刊载 于 谷歌 黑板 报 ， 获 得 上 百 万 次 点 击 ， 得 到 读者 高 
度 评 价 。 读 者 说 ， 读 了 “数学 之 美 ” 才 发 现 大 学 时 学 的 数学 知识 ， 比 如 马尔 可 夫 链 、 和 矩阵 
计算 , 甚至 余弦 函数 原来 都 如 此 亲切 ,并且 棚 棚 如 生 , 才 发 现 自然 语言 和 信息 处 理 这 么 有 趣 。 

今年 ,作者 吴军 博士 几乎 把 所 有 文章 都 重 写 了 一 遍 ， 为 的 是 把 高 深 的 数学 原理 讲 得 更 加 
通俗 易 懂 ， 让 非 专 业 读者 也 能 领略 数学 的 魅力 。 读者 通过 具体 的 例子 学 到 的 是 思考 问题 的 方 
式 一 一 如 何 化 繁 为 简 ， 如 何 用 数学 去 解决 工程 问题 ， 如 何 跳出 固有 思维 不 断 去 思考 创新 。 
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本 书 谨 献 给 我 的 家 人 。 


愿 科学 之 精神 在 国民 中 得 到 普及 ， 愿 中 国 年 轻 的 一 代 涌现 更 多 的 杰出 专业 
人 才 。 


出 版 说 明 


“数学 之 美 ”最 初 是 从 2006 年 起 在 Google 中 国 的 官方 博客 一 - 谷歌 黑 

板报 上 连载 的 系列 博客 。 当 时 我 写 这 个 系列 的 原因 完全 是 应 原 黑板 报 版 
主 吴 丹 丹 女 士 〈 现 任职 于 苹果 公司 ) 之 请 , 希望 介绍 一 点 Google 的 技术 ， 
盛情 难 却 ， 便 勉 为 其 难 接 下 了 这 个 任务 。 这 个 任务 的 难处 在 于 既 要 介绍 
Google 的 技术 ， 又 不 能 泄密 。 于 是 我 只 好 采用 了 仅 介 绍 基本 原理 尤其 是 
数学 原理 的 方法 来 写 文章 。 加 上 我 自己 对 数学 比较 感 兴趣 ， 博 士 论文 也 
是 以 数学 为 主 的 题目 ， 因 此 ， 便 写成 了 介绍 我 所 从 事 的 信息 处 理 领域 的 
数学 基础 的 系列 文章 。 当 初 我 并 没有 计划 写 多 少 篇 ， 只 打算 有 空 就 抽 时 
间 写 一 点 ， 写 到 哪儿 算 哪 儿 ， 没 时 间 写 就 算 了 。 不 想 刊登 了 几 篇 后 ， 受 
到 IT 行业 广大 从 业 人 员 的 关注 和 喜爱 。 在 互联 网 上 被 转载 了 上 万 次 ， 读 
者 有 上 百 万 。 大 家 都 鼓励 我 写 下 去 ， 于 是 便 陆 陆续 续 写 了 20 多 篇 。 


后 来 我 在 Google 的 工作 越 来 越 多 , 同时 在 公司 外 还 有 很 多 要 履行 的 义务 ， 
便 很 少 有 精力 再 写 这 个 系列 了 。2009 年 ， 李 开 复 离开 Google， 谷歌 黑 
板报 的 第 二 任 版 主 崔 瑾 女士 也 随 他 去 了 创新 工场 (后 来 转 到 怠 豆 菊 ) 。 
Google 再 也 没有 人 敦促 我 继续 为 谷歌 黑板 报 写 博 客 了 。 令 我 感动 的 是 ， 
这 么 多 年 后 ， 还 不 断 有 读者 关注 这 个 系列 ， 并 且 时 不 时 地 问 我 是 否 能 把 
这 个 系列 写 完 ， 是 否 可 能 出 书 。 因 此 ， 从 2010 年 起 ， 我 陆续 将 剩 下 的 几 
篇 写 完 。 


出 书 比 写 博客 要 求 高 很 多 。 一 本 好 书 需要 结构 系统 而 文字 严谨 ,为 了 达 
到 出 书 的 要 求 ， 我 几乎 重 写 了 所 有 的 内 容 。 因 此 ， 这 本 书 虽 然 在 每 章 的 
标题 和 主题 上 与 原来 的 博客 相同 ， 但 是 内 容 和 文字 都 是 新 的 。 和 希望 广大 
读者 ， 无 论 是 过 去 读 过 黑板 报 上 连载 系列 的 老 朋 友 ， 还 是 第 一 次 读 这 本 
书 的 新 朋友 ， 都 能 有 全 新 的 收获 。 


在 系统 性 方面 ， 为 了 便于 非 IT 读者 的 阅读 ， 我 对 每 个 专题 都 给 出 了 背景 
介绍 ; 同时 ， 为 了 起 到 给 从 事 相 关 工作 的 工程 师 做 参考 的 目的 ， 在 一 些 
专题 的 最 后 ， 我 都 给 出 了 “延伸 阅读 ”一 节 。 非 IT 读者 可 以 完全 跳 过 这 
些 延 伸 阅读 部 分 ， 这 样 并 不 会 影响 阅读 其 他 内 容 。 本 书 中 系统 性 方面 的 
第 二 个 改进 就 是 调整 了 章节 的 位 置 , 以 帮助 读者 阅读 。 在 严谨 性 方面 ， 
我 在 腾讯 工程 师 王 益 等 人 的 帮助 下 ， 更 正 了 原来 博客 中 的 一 些 错误 ， 并 
尽 可 能 补充 完善 很 多 公式 推导 的 过 程 。 


本 书 的 素材 来 源 于 我 本 人 的 工作 。 语 言 信息 处 理 、 互 联网 技术 、 数 据 挖 
所 和 机 器 学 习 都 是 博大 精深 而 又 快速 发 展 的 领域 ,我 所 做 的 研究 工作 也 
只 涵盖 了 其 中 很 小 的 一 部 分 。 对 于 我 没有 涉足 过 的 领域 ,我 没有 信心 也 
没有 资格 写 。 因 此 ， 这 本 书 在 内 容 上 并 没有 全 面 覆 盖 上 述 领 域 ， 比 如 对 
当今 数据 挖掘 领域 的 算法 、 互 联网 上 各 种 推荐 系统 的 数学 模型 都 鲜 有 提 
及 。 对 这 些 内 容 有 兴趣 的 读者 可 以 查阅 相应 的 书籍 文章 ， 也 希望 今后 有 
这 方面 的 专家 能 够 将 自己 工作 的 心得 写 出 来 ， 供 大 家 学 习 参 考 。 


在 《数学 之 美 》 成 书 之 际 ， 我 要 感谢 所 有 那些 把 我 带 到 数学 王国 和 信息 
处 理 领域 的 人 。 特 别 要 感谢 的 是 我 的 父亲 ， 他 让 我 在 幼年 就 对 数学 和 自 
然 科 学 产生 了 浓厚 的 兴趣 ， 并 帮助 我 打 好 数学 基础 。 接 下 来 要 特别 感谢 
的 是 我 在 中 国 和 美国 的 三 位 导师 : 王 作 英 教授 、 库 坦 普 教授 和 贾 里 尼克 
教授 ， 他 们 三 人 都 是 有 着 很 深 数 学 造 齐 的 信息 论 专家 ， 他 们 把 我 领 进 语 
音 和 语言 处 理 的 王国 ， 不 仅 帮助 我 打下 比较 深厚 的 数学 功底 ， 而 且 让 我 
看 到 了 数学 的 威力 和 魅力 。 最 后 要 感谢 Google 的 谢 尔 盖 ' 布 林 院 士 、 韦 
恩 . 罗 森 先生 和 彼得 * 诺 威 格 博士 ， 他 们 把 我 招 进 Google， 让 我 有 机 会 


进入 网 络 搜索 领域 。 尤 其 是 诺 威 格 博士 , 作为 我 在 Google 的 直接 上 级 ， 
一 直 给 予 我 做 任何 我 想 做 的 工作 的 权力 ， 因 此 ， 我 才 得 以 精通 网 络 搜 索 
的 每 一 个 细节 。 在 Google， 我 还 要 感谢 我 的 同事 阿 米 特 . 辛 格 博士 ， 他 
是 我 在 搜索 领域 的 导师 。 


在 这 本 书 的 写作 过 程 中 ， 我 得 到 了 很 多 人 的 帮助 和 鼓励 。Just Pub 团队 的 
审 稿 编辑 李 琳 戏 先生 对 书稿 进行 了 数 次 精心 的 审读 ， 感 谢 他 的 认真 和 专 
业 。 华 中 科技 大 学 数学 与 统计 学 院 的 周 竺 教授 也 拨 宛 通读 了 全 书 ， 感 谢 
他 的 鼓励 和 细心 。 腾 讯 公 司 的 王 益 博 士 ( 原 Google 工程 师 ) 帮 我 编辑 和 
校对 了 书 中 诸多 的 公式 ， 并 完善 了 书 中 的 一 些 细节 部 分 。 吴 丹 丹 女 士 在 
将 我 的 拙 作 刊登 在 谷歌 黑板 报 前 ， 对 我 的 博客 进行 了 润色 ， 尤 其 是 增加 
了 不 少 画 龙 点 睛 之 笔 。 在 我 将 博客 编辑 成 书 时 ，Google 的 叶 艳 女士 通读 
了 所 有 的 章节 ,并 给 出 了 修改 意见 ,以 保证 全 书 对 于 非 专业 读者 的 可 读 性 。 


清华 大 学 的 李 星 教授 、 李 开 复 博 士 、 本 书 的 出 版 人 周 条 女 士 和 原 Google 
中 国 的 总 监 王 怀 南 先生 一 直 是 这 个 博客 系列 的 热心 推荐 人 ， 并 且 一 直 鼓 
励 我 将 它 编纂 成 书 。 我 以 前 在 清华 大 学 的 同事 郭 进 博士 是 自然 语言 处 理 
专家 ， 经 常 和 我 讨论 中 文 处 理 的 问题 ， 并 且 给 了 我 很 多 启发 。 在 此 ， 我 
向 他 们 表示 诚挚 的 感谢 。 


同时 我 要 感谢 我 的 家 人 给 我 的 帮助 ， 特 别 是 我 的 两 个 女儿 吴 梦 华 和 吴 梦 
声 ， 她 俩 绘制 了 全 书 的 许多 插图 。 


最 后 要 感谢 所 有 热心 的 博客 读者 以 及 在 互联 网 上 传播 这 个 博客 的 媒体 、 
网 站 和 个 人 。 和 希望 这 本 书 能 够 帮助 读者 从 广度 和 深度 上 了 解 信息 科学 。 


吴军 


2012 年 4 月 于 深圳 


《数学 之 美 》 是 一 本 非常 值得 读 的 书 。 这 本 书展 现 了 吴军 博士 在 他 多 年 
的 科研 经 历 中 对 科学 问题 的 深入 思考 。 


我 于 1991 年 从 美国 回 到 清华 大 学 电子 工程 系 工作 , 与 吴军 博士 是 同事 ， 
对 他 在 汉语 语音 识别 方面 的 深入 研究 印象 非常 深刻 。 后 来 他 到 美国 工作 ， 
出 版 了 一 本 介绍 硅谷 的 书 《 浪 潮 之 奖 》， 使 我 对 他 的 写作 激情 和 水 平 有 
了 新 的 认识 。 


这 些 年 来 我 在 清华 大 学 教书 ， 一 直 思 考 着 如 何 让 学 生 能 真正 欣赏 和 热爱 
科学 研究 ， 这 将 有 助 于 他 们 深入 理解 自己 所 从 事 的 研究 的 价值 ， 进 而 能 
逐渐 成 长 为 所 在 领域 的 大 师 和 领军 人 物 。 在 这 一 过 程 中 ， 愉 好 发 现 了 吴 
军 博士 在 谷歌 中 国 的 官方 博客 一 谷歌 黑板 报 上 连载 的 “数学 之 美 ” 系 
列 文章 ， 我 非常 欣赏 这 些 文章 。 因 此 ， 在 很 多 场合 都 建议 学 生 跟踪 阅读 
这 个 系列 的 博客 文章 。 今 天 本 书 出 版 ， 与 原先 的 博客 文章 相 比 ， 其 内 容 
的 系统 性 和 深度 又 上 升 到 了 一 个 新 的 境界 。 


我 读 《 数 学 之 美 》 有 下 面 几 点 体会 ， 与 大 家 分 享 。 


1. 追根 滴 源 


《数学 之 美 ? 用 了 大 量 篇 旺 介绍 各 个 领域 的 典故 , 读 来 令 人 兴趣 短 然 。 

典故 里 最 核心 的 是 相关 历史 事件 中 的 人 物 。 我 们 必须 要 问 : 提出 巧妙 数 
学 思想 的 人 是 谁 ? 为 什么 是 “他 / 她 ”提出 了 这 个 思想 ? 其 思维 方法 有 
何 特点 ? 成 为 一 个 领域 的 大 师 有 其 偶然 性 ， 但 更 有 其 必然 性 。 其 必然 性 
就 是 大 师 们 的 思维 方法 。 


2. 体会 方法 
从 事 科学 研究 ， 最 重要 的 是 掌握 思维 方法 。 在 这 里 ， 我 举 两 个 例子 。 


牛顿 是 伟大 的 物理 学 家 和 数学 家 ， 他 在 《自然 哲学 的 数学 原理 》 中 叙述 
了 四 条 法 则 。 其 中 有 “法 则 1: 除 那 些 真实 而 已 足够 说 明 其 现象 者 外 ， 不 
必 去 寻找 自然 界 事物 的 其 他 原因 ”。 这 条 法 则 后 来 被 人 们 称 作 “ 简 单 性 
原则 ”。 正如 爱 因 斯 坦 所 说 : “从 希腊 哲学 到 现代 物理 学 的 整个 科学 史 中 ， 
不 断 有 人 力图 把 表面 上 极为 复杂 的 自然 现象 归结 为 几 个 简单 的 基本 概念 
和 关系 。 这 就 是 整个 自然 哲学 的 基本 原理 。" 这 个 原理 也 贯穿 了 《数学 之 美 》 
本 身 。 


WWw 的 发 明 人 带 姆 伯 纳 斯 . 李 谈 到 设计 原理 时 说 过 : “简单 性 和 模 
块 化 是 软件 工程 的 基石 ;分 布 式 和 容错 性 是 互联 网 的 生命 。” 虽然 在 软 
件 工程 和 互联 网 领域 的 从 业 人 员 数 量 极其 庞大 ， 但 能 够 真正 体会 到 这 些 
核心 思想 的 人 能 有 多 少 呢 ? 


我 给 学 生出 过 这 样 的 考题 : 把 过 去 十 年 来 重要 IT 杂志 的 封面 上 重点 推荐 
的 技术 专题 找 来 看 看 ， 崔 一 瞧 哪 些 技术 成 功 了 , 哪些 技术 是 县 花 一 现 ， 
分 析 一 下 原因 ? 其 答案 很 有 意思 : “有 正确 设计 思想 方法 的 技术 ”未 必 
能 够 成 功 , 因为 还 有 非 技术 的 因素 ; 但 “没有 正确 设计 思想 方法 的 技术 ” 
一 定 失败 ， 无 一 例外 。 因 此 ， 我 也 建议 本 书 的 读者 结合 阅读 ， 体 会 凝练 
创造 《数学 之 美 》 的 方法 论 。 


3. 超越 欣赏 


数学 既是 对 自然 界 事实 的 总 结 和 归纳 ， 如 英国 的 哲学 家 培根 所 说 “一 切 
多 依赖 于 我 们 把 眼睛 紧 果 在 自然 界 的 事实 之 上 ”; 又 是 抽象 思考 的 结果 ， 
如 法 国 哲学 家 笛 卡 尔 所 说 “我 思 故 我 在 ”。 这 两 个 方法 成 就 了 目前 绚丽 
多 彩 、 魅 力 非凡 的 数学 ， 非常 值 得 欣赏 。《 数 学 之 美 》 把 数学 在 IT 领域 ， 
特别 是 语音 识别 和 搜索 引擎 方面 的 美丽 之 处 予以 了 精彩 表达 。 但 在 这 里 
我 想 说 的 是 : 欣赏 美 不 是 终极 目的 ， 更 值得 追求 的 是 创造 美的 境界 。 希 
望 本 书 的 读者 ， 特 别 是 年 轻 读者 能 够 欣赏 数学 在 IT 技术 中 的 美 ， 学 习 大 
师 们 的 思想 方法 ， 使 自己 成 为 大 师 ， 创 造 新 的 数学 之 美 。 


李 星 


2012 年 4 月 于 北京 


去 年 我 曾经 给 吴军 的 《浪潮 之 网 》 写 序 ， 今 年 很 高 兴 得 知 他 的 《数学 
之 美 》 也 即将 出 版 了 ! 


和 《浪潮 之 典 》 一 样 ，《 数 学 之 美 》 也 是 当年 作为 Google 资深 研究 员 的 
吴军 在 谷歌 黑板 报 上 应 邀 撰写 的 一 系列 文章 。 说 实在 的 ， 刚 开始 ， 黑 板 
报 的 版 主 还 有 点 担心 这 个 系列 会 不 会 让 读者 觉得 太 理论 而 感到 枯燥 ， 但 
很 快 这 个 顾虑 就 被 打消 了 。《 数 学 之 美 》 用 生动 形象 的 语言 ， 结 合 数学 
发 展 的 历史 和 实际 的 案例 ， 谈 古 论 今 ， 系 统 地 阑 述 了 与 现代 科技 领域 相 
关 的 重要 的 数学 理论 的 起 源 、 发 展 及 其 作用 ， 深 入 浅 出 ， 受 到 广大 读者 
尤其 是 科技 界 人 士 的 喜爱 。 


之 前 就 曾 说 过 ， 在 我 认识 的 顶尖 研究 员 和 工程 师 里 ， 吴 军 是 极 少数 具 
有 强大 叙事 能 力 和 对 科技 、 信 息 领 域 的 发 展 变化 有 很 深 的 纵向 洞察 
力 ， 并 能 有 效 归纳 总 结 的 人 之 一 。 在 《数学 之 美 》 里 ， 吴 军 再 次 展示 
了 这 一 特点 。 与 《浪潮 之 疾 》 不 同 的 是 ， 这 次 吴军 集中 阐述 了 他 对 数 
学 和 信息 处 理 这 些 专业 学 科 的 理解 ， 尤 其 是 他 在 语音 识别 、 自 然 语 言 
处 理 和 信息 搜索 领域 多 年 来 的 积累 。 从 数字 和 信息 的 由 来 、 到 搜索 
引擎 对 信息 进行 处 理 背 后 的 数学 原理 ， 到 与 搜索 相关 的 众多 领域 后 面 


的 奇妙 的 数学 应 用 ， 吴 军 都 娓 娓 道 来 。 他 把 数学 后 面 的 本 质 思维 写 得 
透彻 、 生 动 。 不 得 不 说 ， 他 的 文字 ， 引 人 人 入 胜 ， 也 确实 让 我 们 体会 到 
数学 的 美 。 在 他 的 笔下 ， 数 学 不 是 我 们 一 般 联想 到 的 枯燥 深奥 的 符 
号 ,而 是 实 实在 在 源 于 生活 的 有 趣 的 现象 和 延伸 。 数 学 ,其实 无 处 
不 在 ， 而 且 有 一 种 让 人 惊叹 的 前 律 和 美 ! 


伽利略 曾经 说 过 ，“ 数 学 是 上 帝 描写 自然 的 语言 ”; 爱 因 斯 坦 也 曾 说 
过 ，“ 纯 数学 使 我 们 能 够 发 现 概 念 和 联系 这 些 概 念 的 规律 ， 这 些 概念 
和 规律 给 了 我 们 理解 自然 现象 的 钥匙 。” 我 多 年 来 一 直 也 对 信息 处 理 、 
语音 识别 领域 有 着 一 定 的 研究 ， 深 深 体 会 到 数学 在 所 有 科学 领域 起 到 
的 基础 和 根本 的 作用 。“ 哪 里 有 数 , 哪里 就 有 美 ”。 在 这 里 , 我 把 《 数 
学 之 美 ) 真诚 推荐 给 每 一 位 对 自然 、 科 学 、 生 活 有 兴趣 有 热情 的 朋友 ， 
不 管 你 是 搞 理 科 还 是 搞 文科 的 , 读 一 读数 学 的 东西 , 会 让 你 受益 良 多 
同时 能 感受 到 宇宙 和 世界 的 美好 与 奇妙 。 


吴军 把 之 前 谷歌 黑板 报 上 的 “数学 之 美 ” 系 列 文章 编辑 成 现在 的 这 本 
书 ,花费 了 大 量 的 心血 和 时 间 。 他 本 着 十 分 严谨 的 态度 ， 在 繁忙 的 工 
作 之 余 ， 补 充 了 之 前 的 系列 ， 并 几乎 重 写 了 所 有 的 文章 ， 既 照顾 了 普 
通读 者 的 兴趣 ， 又 兼顾 了 专业 读者 对 深度 的 要 求 ， 很 让 人 钦佩 。 


有 时 我 在 想 ， 现 在 的 社会 多 了 一 点 压力 和 浮躁 ， 少 了 一 点 踏实 和 对 自 
然 科学 本 质 的 好 奇 求知 。 吴 军 的 这 本 《数学 之 美 》 真 的 非常 好 。 非 常 
希望 吴军 今后 能 写 出 更 多 这 样 深入 浅 出 的 好 书 ， 它 们 会 是 给 这 个 社会 
和 年 轻 人 最 好 的 礼物 。 


李开复 


2012 年 4 月 于 北京 


数学 一 词 在 西方 源 于 古 希 腊 语 hkgnha， 意 思 是 通过 学 习 获 得 的 知识 
的 意思 ， 因 此 早期 的 数学 涵盖 的 范围 比 我 们 今天 讲 的 数学 要 广 得 多 ， 
和 人 类 的 生活 也 更 接近 些 。 在 古代 最 重要 的 知识 ， 除 了 对 世界 的 认识 
和 了 解 ， 就 是 人 之 间 的 互通 和 交流 了 ， 我 们 把 它 称 为 广义 上 的 通信 。 
本 书 的 内 容 也 将 从 这 里 开始 。 


早期 的 数学 远 不 如 今天 神秘 , 它 是 非常 真实 的 。 但 是 和 任何 事物 一 样 ， 
数学 也 在 不 断 地 演化 ， 而 这 个 发 展 过 程 使 得 数学 变 得 高 深 起 来 。 数 学 
演化 的 过 程 实际 上 是 将 我 们 生活 中 遇 到 的 具体 物质 以 及 他 们 运动 的 规 
律 不 断 抽 象 化 的 过 程 。 经 过 几 千 年 的 抽象 化 ， 大 家 头脑 里 能 想象 的 数 
学 只 剩 下 数字 、 符 号 、 公 式 和 定理 了 。 这 些 东西 和 我 们 的 生活 似乎 渐 
渐 朴 远 了 ， 甚 至 在 表面 上 毫 不 相关 了 。 今 天 ， 除 了 初等 数学 ， 大 家 一 
般 对 数学 尤其 是 纯粹 数学 ( Pure Mathematics ) 的 用 途 甚至 产生 了 
怀疑 。 很 多 大 学 生 毕 业 后 ， 在 大 学 所 学 的 数学 可 能 一 辈子 都 没有 机 会 
应 用 ， 几 年 后 就 忘 得 差不多 了 。 因 此 ， 很 多 人 也 产生 了 为 什么 要 学 习 
数学 的 疑问 。 更 加 不 幸 的 是 , 数学 专业 的 毕业 生 就 连 就 业 也 闫 为 困难 ， 
在 中 国 和 美国 都 是 如 此 。 在 很 多 人 眼 里 ， 数 学 家 都 是 陈景润 那样 带 着 
厚 厚 的 眼镜 、 行 为 木讷 的 人 。 因 此 ， 无 论 是 这 些 抽象 的 数字 、 符 号 、 


公式 和 定理 ， 还 是 研究 他 们 的 数学 家 和 美 也 似乎 没有 联系 。 


事实 上 数学 的 用 途 远 不 止 人 们 的 想象 ， 甚 至 可 以 说 在 我 们 生活 中 是 无 
所 不 在 。 且 不 说 那些 和 我 们 生活 相对 联系 较 少 的 领域 ， 比 如 原子 能 和 
航天 ， 那 里 需要 用 到 大 量 的 数学 知识 。 就 说 我 们 天 天 用 的 产品 和 技 
术 ， 背 后 都 有 支持 它们 的 数学 基础 。 作 为 一 名 工作 了 20 多 年 的 科学 
工作 者 ， 我 在 工作 中 经 常 惊叹 于 数学 语言 应 用 于 解决 实际 问题 上 时 的 
魔力 。 我 也 希望 把 这 种 神奇 讲解 给 大 家 听 。 


从 工业 社会 起 ， 通 信 占 据 了 人 们 生活 的 大 量 时 间 。 当 人 类 进入 电 的 时 
代 后 ,通信 的 扩展 不 仅 拉 近 了 人 与 人 的 距离 ， 而 且 是 带动 世界 经 济 增 
长 的 火车 头 。 今 天 通信 和 它 相 关 的 产业 可 能 占 到 我 们 世界 GDP 很 大 
的 一 部 分 。 今 天 城市 里 的 人 花 时 间 最 多 无 非 是 在 电视 机 前 , 互联 网 上 ， 
电话 上 ( 不论 是 固定 电话 还 是 手机 ) , 这些 都 是 这 样 或 者 那样 的 通信 。 
甚至 原本 必须 人 到 现场 的 很 多 活动 比如 购物 ， 也 被 建立 在 现代 通信 基 
础 之 上 的 电子 商务 逐渐 取代 。 而 现代 通信 ， 追 溯 到 100 多 年 前 的 莫 尔 
斯 电报 码 和 贝尔 的 电话 ， 再 回 到 今天 的 电视 ， 手 机 和 互联 网 ， 都 遵循 
信息 论 的 规律 ， 而 整个 信息 论 的 基础 就 是 数学 。 如 果 往 更 远 看 ， 我 们 
自然 语言 和 文字 的 起 源 背后 都 受 着 数学 规律 的 支配 。 


“ 信 ” 字 作为 “通信 ”一 词 的 50%， 表 明了 信息 处 理 存储 、 传 输 、 处 理 
和 理解 的 重要 性 。 我 们 今天 每 个 人 都 使 用 的 搜索 ， 以 及 我 们 都 觉得 很 
神奇 的 语音 识别 、 机 器 翻译 和 自然 语言 处 理 也 被 包括 在 其 中 。 也 许 大 
家 不 相信 ， 数 学 是 解决 这 些 问 题 的 最 好 工具 。 它 不 仅 能 够 非常 清晰 地 
用 一 些 通用 的 模型 来 描述 这 些 领域 的 看 似 不 同 的 实际 问题 ， 而 且 能 给 
出 非常 漂亮 的 解决 办 法 。 每 当 人 们 应 用 数学 工具 解决 一 个 个 和 信息 处 
理 有 关 的 问题 时 , 总 会 感叹 数学 之 美 。 虽然 人 类 的 语言 有 成 百 上 千 种 ， 
但 处 理 它们 的 数学 模型 却 是 相同 的 或 者 相似 的 ， 这 种 一 致 性 也 是 数学 
之 美的 表现 。 在 这 本 书 中 ， 我 们 将 介绍 一 些 数学 工具 ， 看 看 我 们 是 如 
何 利用 这 些 工具 来 处 理 信息 ， 开 发 我 们 每 天 生活 中 都 使 用 的 产品 5 


数学 常常 给 人 一 种 深奥 和 复杂 的 感觉 ， 但 是 它 的 本 质 常 常 是 很 简单 而 
直接 的 。 英 国 哲学 家 弗朗西斯 . 培根 在 论 美 德 时 讲 “ 美 德 就 如 同 华贵 
的 宝石 ， 在 朴素 的 衬托 下 最 显 华丽 。” ( Virtue is like a rich stone, 
best plain set. ) ， 数 学 的 妙 处 也 恰恰 在 于 一 个 好 的 方法 ， 常 常 是 最 
简单 明了 的 方法 。 因 此 ， 我 会 将 简单 即 是 美的 思想 贯穿 全 书 。 


最 后 ， 要 说 明 一 下 本 书 为 什么 花 了 相当 的 篇 幅 介 绍 很 多 我 所 熟知 的 自 
然 语 言 处 理 和 通信 的 世界 级 专家 。 他 们 来 自 世 界 不 同 的 国家 ， 属 于 不 
同 的 民族 ， 但 是 他 们 都 有 一 个 共同 的 特点 就 是 数学 非常 好 ， 同 时 解决 
了 很 多 实际 问题 。 通 过 介绍 他 们 日 常 的 工作 和 生活 ， 希 望 读者 对 真正 
的 世界 级 学 者 有 更 多 的 了 解 。 了 解 他 们 凡人 的 一 面 ， 了 解 他 们 成 功 的 
原因 ， 了 解 真正 懂得 数学 之 美的 人 的 美好 人 生 。 


吴军 


2012 年 4 月 于 深圳 
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第 11 章 如 何 确定 网 页 和 查询 的 相关 性 

确定 网 页 和 查询 的 相关 性 是 网 页 搜索 的 根本 问题 ， 其 中 确 
定 查询 中 每 个 关键 词 的 重要 性 有 多 高 是 关键 。|TF-1DF 是 目 
前 通用 的 关键 词 重 要 性 的 度量 ， 其 背后 的 原理 是 信息 论 。 


1 搜索 关键 词 权 重 的 科学 度量 TF-IDF 


目录 川 V 


2 ”延伸 阅读 : TF-IDF 的 信息 论 依据 
3 小 结 


111 ”第 12 章 地 图 和 本 地 搜索 的 最 基本 技术 一 有 限 
状态 机 和 动态 规划 
地 图 和 本 地 服务 中 要 用 到 有 限 状态 机 和 动态 规划 技术 。 
这 两 项 技术 是 机 器 智能 和 机 器 学 习 的 工具 ， 它 们 的 应 用 
非常 广泛 ， 还 包括 语音 识别 、 拼 写 和 语法 纠 错 、 拼 音 输 
入 法 、 工 业 控制 和 生物 的 序列 分 析 等 。 


地 址 分 析 和 有 限 状 态 机 

全 球 导航 和 动态 规划 

延伸 阅读 : 有 限 状态 传感器 
小 结 


中 由 bb 


121 ”第 13 章 Google AK-47 的 设计 者 一 阿 米 特 
辛 格 博士 
在 所 有 轻武器 中 最 有 名 的 是 AK-47 冲锋 枪 ， 因 为 它 从 不 
卡 壳 ， 不 易 损 坏 ， 可 在 任何 环境 下 使 用 ， 可 靠 性 好 ， 杀 
伤 力 大 并 且 操作 简单 。Google 的 产品 就 是 按照 上 述 原 
则 设计 的 。 


127 “第 14 章 余弦 定理 和 新 闻 的 分 类 
计算 机 虽然 读 不 懂 新 闻 , 却 可 以 准确 地 对 新 闻 进 行 分 类 。 
其 数学 工具 是 看 似 毫 不 相干 的 余弦 定理 。 
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137 


143 


新 闻 的 特征 向 量 

向 量 距离 的 度量 

延伸 阅读 : 计算 向 量 余弦 的 技巧 
小 结 


全 


第 15 章 “矩阵 运算 和 文本 处 理 中 的 两 个 分 类 问题 
无 论 是 词汇 的 聚 类 还 是 文本 的 分 类 ， 都 可 以 通过 线性 代 
数 中 矩阵 的 奇异 值 分 解 来 进行 。 这 样 一 来 ， 自 然 语 言 处 
理 的 问题 就 变 成 了 一 个 数学 问题 。 


1 文本 和 词汇 的 矩阵 
2 ”延伸 阅读 奇异 值 分 解 的 方法 和 应 用 场景 
3 小 结 


第 16 章 信息 指纹 及 其 应 用 

世间 万 物 都 有 一 个 唯一 标识 的 特征 ， 信 息 也 是 如 此 。 每 
一 条 信息 都 有 它 特定 的 指纹 ， 通 过 这 个 指纹 可 以 区 别 不 
同 的 信息 。 


信息 指纹 

信息 指纹 的 用 途 

延伸 阅读 : 信息 指纹 的 重复 性 和 相似 哈 希 
小 结 


Wo 


目录 站 VI 


155 ”第 17 章 由 电视 剧 《 暗 算 ) 所 想到 的 一 - 谈 谈 
密码 学 的 数学 原理 


密码 学 的 根本 是 信息 论 和 数学 。 没 有 信息 论 指 导 的 密码 
是 非常 容易 被 破解 的 。 只 有 在 信息 论 被 广泛 应 用 于 密码 
学 后 ， 密 码 才 真正 变 得 安全 。 


1 密码 学 的 自发 时 代 
2 ， 信 息 论 时 代 的 密码 学 
3 小 结 


163 ”第 18 章 闪光 的 不 一 定 是 金子 一 谈 谈 搜索 引擎 
反 作 岗 问题 
闪光 的 不 一 定 是 金子 ， 搜 索引 擎 中 排名 靠 前 的 网 页 也 
未 必 是 有 用 的 网 页 。 消 除 这 些 作 猴 网 页 的 原理 和 通信 
中 过 滤 噪 音 的 原理 相同 。 这 说 明 信 息 处 理 和 通信 的 很 
多 原理 是 相通 的 。 


169 第 19 章 谈 谈 数 学 模型 的 重要 性 
正确 的 数学 模型 在 科学 和 工程 中 至 关 重要 ， 而 发 现 正确 
模型 的 途径 常常 是 曲折 的 。 正 确 的 模型 在 形式 上 通常 是 
简单 的 。 


177 ”第 20 章 不 要 把 鸡蛋 放 到 一 个 篮子 里 一 谈 谈 
最 大 精 模 型 

最 大 焙 模 型 是 一 个 完美 的 数学 模型 。 它 可 以 将 各 种 信息 

合 到 一 个 统一 的 模型 中 ， 在 信息 处 理 和 机 器 学 习 中 有 


VIll 咱 数学 之 美 


185 


197 


着 广泛 的 应 用 。 它 在 形式 上 非常 简单 、 优 美 ， 而 在 实现 
时 需要 有 精深 的 数学 基础 和 高 超 的 技巧 。 


1 最 大 炉 原 理 和 最 大 炉 模 型 
2 最 大 焙 模 型 的 训练 
3 小 结 


第 21 章 拼音 输入 法 的 数学 原理 

汉字 的 输入 过 程 本 身 就 是 人 和 计算 机 之 间 的 通信 。 好 的 
输入 法 会 自觉 或 不 自觉 地 遵循 通信 的 数学 模型 。 当 然 要 
做 出 最 有 效 的 输入 法 ， 应 当 自 觉 使 用 信息 论 做 指导 。 


1 输入 法 与 编码 

2 输入 一 个 汉字 需要 殴 多 少 个 键 一 谈 谈 香 
农 第 一 定理 

3 拼音 转 汉字 的 算法 

4 延伸 阅读 : 个 性 化 的 语言 模型 

5 小 结 


第 22 章 自然 语言 处 理 的 教父 马 库 斯 和 他 的 
优秀 弟子 们 

将 自然 语言 处 理 从 基于 规则 的 研究 方法 转 到 基于 统计 的 

研究 方法 上 ， 宾 夕 法 尼 亚 大 学 的 教授 米奇 ' 马 库 斯 功 不 

可 没 。 他 创立 了 今天 在 学 术 界 广泛 使 用 的 LCD 语料库 

同时 培养 了 一 大 批 精英 人 物 。 


目录 川 IX 


1 教父 马 库 斯 
2 ， 从 宾夕法尼亚 大 学 走出 的 精英 们 


205 ”第 23 章 布 隆 过 滤器 
日 常生 活 中 ， 经 常 要 判断 一 个 元 素 是 否 在 一 个 集合 中 。 
布 隆 过 滤器 是 计算 机 工程 中 解决 这 个 问题 最 好 的 数学 工 
具 。 


1 布 隆 过 滤器 的 原理 
2 ”延伸 阅读 : 布 隆 过 滤器 的 误 识别 问题 
3 小 结 


211 ”第 24 章 马尔 可 夫 链 的 扩展 一 贝 叶 斯 网 络 
贝 叶 斯 网 络 是 一 个 加 权 的 有 向 图 , 是 马尔 可 夫 链 的 扩展 。 
而 从 认识 论 的 层面 看 : 贝 叶 斯 网 络 克服 了 马尔 可 夫 链 那 
种 机 械 的 线性 约束 ， 它 可 以 把 任何 有 关联 的 事件 统一 到 
它 的 框架 下 面 。 它 在 生物 统计 、 图 像 处 理 、 决 策 支持 系 
统 和 博弈 论 中 都 有 广泛 的 使 用 。 


1 贝 叶 斯 网 络 

2 ”页 叶 斯 网 络 在 词 分 类 中 的 应 用 
3 延伸 阅读 : 贝 叶 斯 网 络 的 训练 
4 小 结 
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219 


227 


239 


第 25 章 条 件 随机 场 和 句法 分 析 

条 件 随机 场 是 计算 联合 概率 分 布 的 有 效 模型 ， 而 句法 
分 析 似 乎 是 英文 课 上 英语 老师 教 的 东西 ， 这 两 者 有 什 
么 联系 呢 ? 


1 句法 分 析 计 算 机 算法 的 演变 
2 ”条件 随机 场 
3 小 结 


第 26 章 “维特 比 和 他 的 维特 比 算法 

维特 比 算法 是 现代 数字 通信 中 使 用 最 频繁 的 算法 ， 同 时 
也 是 很 多 自然 语言 处 理 的 解码 算法 。 可 以 毫 不 夸张 地 讲 ， 
维特 比 是 对 我 们 今天 生活 的 影响 力 最 大 的 科学 家 之 一 ， 
因为 如 今 基于 CDMA 的 3G 移动 通信 标准 主要 就 是 他 创 
办 的 高 通 公司 制定 的 。 


1 维特 比 算法 
2 CDMA 技术 一 3G 移动 通信 的 基础 
3 小 结 


第 27 章 ”再 谈 文本 自动 分 类 问题 一 期 望 最 大 化 
算法 

只 要 有 一 些 训练 数据 ， 再 定义 一 个 最 大 化 函数 ， 采 用 

EM 算法 ,利用 计算 机 经 过 若干 次 迭代 ; 就 可 以 得 到 所 

需要 的 模型 。 这 实在 是 太美 妙 了 ， 这 也 许 是 我 们 的 造物 

主 刻意 安排 的 。 所 以 我 把 它 称 作 上 帝 的 算法 。 


目录 外 Xl 


1 文本 的 自 收敛 分 类 
2 延伸 阅读 : 期 望 最 大 化 和 收敛 的 必然 性 
3 小 结 


245 ”第 28 章 逻辑 回归 和 搜索 广告 
逻辑 回归 模型 是 一 种 将 影响 概率 的 不 同 因素 结合 在 一 起 
的 指数 模型 ， 它 不 仅 在 搜索 广告 中 起 着 重要 的 作用 ,而 
且 被 广泛 应 用 于 信息 处 理 和 生物 统计 中 。 


1 搜索 广告 的 发 展 
2 ”逻辑 回归 模型 
3 小 结 


251 ”第 29 章 各 个 击破 算法 和 Google 云 计算 的 基础 
Google 颇 为 神秘 的 云 计算 中 最 重要 的 MapReduce 工具 ， 
其 原理 就 是 计算 机 算法 中 常用 的 “各 个 击破 ”算法 ， 它 
的 原理 原来 这 么 简单 一 将 复杂 的 大 问题 分 解 成 很 多 小 
问题 分 别 求解 ， 然 后 再 把 小 问题 的 解 合并 成 原始 问题 的 
解 。 由 此 可 见 ， 在 生活 中 大 量 用 到 的 、 真 正 有 用 的 方法 
常常 都 是 简单 朴实 的 。 


1 分 治 算法 的 原理 
2 ”从 分 治 算法 到 MapReduce 
3 小 结 
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257 ” 阳 录 
259 后记 


263 ”索引 


第 1 章 文字 和 语言 vs 数字 和 信息 


数字 、 文 字 和 自然 语言 一 样 ， 都 是 信息 的 载体 ， 它 们 之 间 原 本 有 着 天 
然 的 联系 。 语 言 和 数学 的 产生 都 是 为 了 同一 个 目的 一 记录 和 传播 信 
息 。 但 是 把 数学 和 信息 系统 自觉 地 联系 起 来 是 半 个 多 世纪 前 香农 博士 发 
明 信 息 论 以 后 的 事 。 在 此 之 前 ， 数 学 的 发 展 更 多 地 和 人 类 对 自然 的 认识 
以 及 生产 活动 联系 在 一 起 , 包括 天 文学 、 几 何 和 工程 学 、 经 济 学 、 力 学 、 
物理 学 甚至 生物 学 等 ， 而 数学 和 语言 学 几乎 是 没有 交集 的 。 我 们 见 到 很 
多 数学 家 同时 是 物理 学 家 或 者 天 文学 家 ， 但 是 过 去 很 少 有 数学 家 同时 是 
语言 学 家 。 


本 书 几乎 全 部 的 章节 讲 的 都 是 近 半 个 多 世纪 的 事情 ， 但 是 在 这 一 章 里 ， 我 
们 将 先 通过 时 间 隧道 回 到 远古 ， 回 到 语言 、 文 字 和 数字 产生 的 年 代 。 


1 信息 


我 们 的 祖先 “现代 人 ”( 人 类 学 上 的 说 法 ) 在 长 成 我 们 今天 的 模样 以 前 ， 
就 开始 使 用 和 传播 信息 了 。 正 如 动物 园 里 的 动物 们 经 常 发 出 它们 喜欢 的 
怪 叫 一 样 ， 早 期 的 人 类 也 喜欢 发 出 含糊 的 声音 。 虽 然 最 初 可 能 只 是 喜欢 
这 样 发 声 ， 渐 渐 地 人 类 开始 用 这 种 声音 来 传播 信息 ， 比 如 用 某 种 特定 的 
声音 表示 “那里 有 只 熊 ”, 提醒 同伴 小 心 。 同 伴 可 能 “ 呀 呀 ”地 回应 两 声 ， 
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表示 知道 了 , 或 者 发 出 另 一 串 含糊 不 清 的 声音 , 表示 “我 们 用 石头 打 它 ”。 


11 人 类 最 早 利用 声音 的 通信 


这 里 面 信息 的 产生 、 传 播 、 接 收 和 反馈 ， 与 今天 最 先进 的 通信 在 原理 上 没 
有 任何 差别 。 关 于 信息 传播 的 模型 ， 在 以 后 的 章节 中 还 会 详细 介绍 。 


说 话 人 (信息 源 ) 信道 接收 者 


图 12 原始 人 通信 的 方式 和 今天 的 通信 模型 没有 什么 不 同 


早期 人 类 了 解 和 需要 传播 的 信息 是 很 少 的 ， 因 此 他 们 并 不 需要 语言 和 数 
字 。 但 是 随 着 人 类 的 进步 和 文明 化 的 进展 , 需要 表达 的 信息 也 越 来 越 多 
不 再 是 几 种 不 同 的 声音 就 能 完全 覆盖 , 语言 就 此 产生 。 人 们 生活 的 经 验 ， 
作为 一 种 特定 的 信息 ， 其 实 是 那个 时 代 最 宝贵 的 财富 ， 通 过 口述 的 语言 
传 给 了 后 代 。 同 时 ， 由 于 人 类 开始 拥有 一 些 食物 和 物件 ， 便 有 了 多 和 少 
的 概念 。 很 遗 贿 ， 那 时 的 人 类 还 不 会 数 数 ， 因 为 他 们 不 需要 。 


2 文字 和 数字 


我 们 的 祖先 迅速 学 习 新 鲜 事物 ， 语 言 也 越 来 越 丰富 ， 越 来 越 抽象 。 语 言 
描述 的 共同 因素 ,比如 物体 、 数量 、 动 作 便 抽象 出 来 , 形成 了 今天 的 词汇 。 
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当 语言 和 词汇 多 到 一 定 程度 的 时 候 ， 人 类 仅 靠 大 脑 已 经 记 不 住所 有 词汇 
了 。 这 就 如 同 今天 没有 人 能 够 记 住 人 类 所 有 的 知识 一 样 。 高 效 记录 信息 
的 需求 就 产生 了 ， 这 便 是 文字 的 起 源 。 


这 些 文字 (包括 数字 ) 出 现 的 年 代 , 今天 是 可 以 考证 的 。 很 多 读者 问 我 为 
什么 在 《浪潮 之 典 》 一 书 中 讲 的 公司 大 多 在 美国 ， 因 为 近 百年 的 技术 革命 
大 多 发 生 在 那里 。 不过, 要 提 到 5 000 甚至 10 000 年 前 的 信息 革命 时 ， 
我 们 必须 回 到 我 们 祖先 走出 的 大 陆 一 非洲 ， 那 里 是 人 类 文明 的 摇篮 。 


在 中 国 (迄今 发 现 的 ) 最 早 的 甲骨 文 :出 现 前 的 几 千年 ， 尼 罗 河 流域 就 1 

有 了 高 度 的 文明 。 古 埃及 人 不 仅 是 优秀 的 农夫 和 建筑 师 ， 他 们 还 发 明 PR 
了 最 早 的 保存 信息 的 方式 一 用 图 形 表示 事物 ， 这 就 是 最 早 的 象形 文字 。 文化 三 期 ， 距 今 约 
( Hieroglyphic ) 。 图 1.3 是 古 埃及 的 “ 亚 尼 的 死者 之 书 ” ( Book of The ?0 年 


Death ) ， 收 藏 于 大 英 博物 馆 ， 这 是 一 轴 绘 在 纸 莎 草 纸 上 长 达 20 多 米 的 


长 卷 , 有 60 幅 绘画 故事 和 象形 文字 的 说 明 。 这 件 3 300-3 400 年 前 的 文物 ， 
完整 地 记载 了 当时 的 文明 ?。 


2 
死者 之 书 是 随 头 
品 ， 放 在 棺 中 ， 可 
以 看 作 是 古 埃及 死 
者 带 到 另 一 个 世界 
的 介绍 信和 今后 生 
活 的 描述 。 上 面 有 
大 量 的 象形 文字 ， 
内 容 大 致 是 说 ， 死 
者 被 带 到 冥 神 面 
前 ， 首 先 ， 他 向 冥 
神 讲述 他 一 辈子 没 
有 做 任何 坏事 ， 然 
后 来 到 诸 神 面前 被 
裁判 ， 最 后 搭乘 太 
阳 船 开始 新 的 生 
活 。 任何 人 看 到 它 
后 都 会 感到 震撼。 
它 的 制作 之 精美 ， 
保存 之 完好 完全 超 
出 我 们 的 想象 。 


13” 亚 尼 的 死者 之 书 


3 
以 二 级 国标 汉字 库 
为 准 。 


4 用 数学 之 美 


在 早期 ， 象 形 文字 的 数量 和 记录 一 个 文明 需要 的 信息 量 显然 是 相关 的 。 最 
早 刻 有 埃及 象形 文字 的 文物 的 年 代 大 约 是 公元 前 32 世纪 ， 那 个 时 期 的 
象形 文字 数量 大 约 只 有 500 个 ， 但 是 到 了 公元 前 5-7 世纪 ( 主要 是 “ 希 
腊 - 罗马 时 代 ”, Greece-Roman Era ) ,埃及 象形 文字 的 数量 增加 到 了 
5 000 个 左右 ， 这 个 规模 和 中 国 常用 的 汉字 数量 相当 *。 然 而 随 着 文明 的 
进步 ， 信 息 量 的 增加 ， 埃 及 的 象形 文字 数量 便 不 再 随 着 文明 的 发 展 而 增 
加 了 ， 因 为 没有 人 能 够 学 会 和 记 住 这 么 多 的 文字 。 于 是 ， 概 念 的 第 一 次 
概括 和 归 类 就 开始 了 。 在 中 国 的 象形 文字 中 ，“ 日 ”本 意 是 太阳 ， 但 是 
它 同时 又 是 太阳 从 升 起 到 落 山 再 到 升 起 的 时 间 周期 ， 也 就 是 我 们 讲 的 一 
天 。 在 古 埃及 的 象形 文字 中 ， 读 音 相同 的 词 可 能 用 同一 个 符号 记录 。 这 
种 概念 的 聚 类 ， 在 原理 上 与 今天 自然 语言 处 理 或 者 机 器 学 习 的 聚 类 有 很 
大 的 相似 性 ， 只 是 在 远古 ， 完 成 这 个 过 程 的 时 间 可 能 需要 上 千年 ; 而 今 
天 ， 可 能 只 需 几 天 甚至 几 小 时 ， 视 计算 机 的 速度 和 数量 而 定 。 


文字 按照 意思 来 聚 类 ， 最 终 会 带 来 一 些 歧 义 性 ， 也 就 是 说 有 时 并 不 清 一 
个 多 义 字 在 特定 环境 下 它 到 底 表示 其 中 的 哪个 含义 。 而 解决 这 个 问题 的 
方法 ， 过 去 的 先生 和 今天 的 学 者 没有 什么 不 同 ， 都 是 依靠 上 下 文 。 有 了 
上 下 文 , 大 多 数 情 况 下 多 义 字 的 去 除 歧 义 ( Disambiguation ) 可 以 做 到 。 
当然 , 总 有 个 别 做 不 到 的 时 候 , 这 就 导致 了 学 者 们 对 某 段 话 理解 上 的 不 同 。 
中 国 古代 学 者 对 儒家 经 典 的 注释 和 正义 ， 其 实 都 是 在 按照 自己 的 理解 做 
消除 歧义 性 的 工作 。 今天 的 情况 也 类 似 , 对 上 下 文 建立 的 概率 模型 再 好 ， 
也 有 失灵 的 时 候 。 这 些 是 语言 从 产生 伊始 就 固有 的 特点 。 


有 了 文字 , 前 人 的 生活 经 验 和 发 生 的 事件 便 一 代 代 传 了 下 来 。 只 要 一 个 文 
明 不 中 断 , 或 者 这 种 文字 还 有 人 认识 ,这 些 信息 就 会 永远 地 传 下 去 ， 比 如 
中 国 的 文明 便 是 如 此 。 当 然 ， 当 一 种 文字 不 再 有 人 认识 时 ， 破解 相 应 的 
信息 就 有 点 困难 了 ， 虽 然 办 法 还 是 有 的 。 


不 同 的 文明 , 因为 地 域 的 原因 , 历史 上 相互 隔绝 , 便 会 有 不 同 的 文字 。 随 着 
文明 的 融合 与 冲突 ， 不 同文 明 下 的 人 们 需要 进行 交流 ,或 者 说 通信 ， 那 
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么 翻译 的 需求 便 产生 了 。 翻 译 这 件 事 之 所 以 能 达成 ， 仅 仅 是 因为 不 同 的 
文字 系统 在 记录 信息 上 的 能 力 是 等 价 的 。( 这 个 结论 很 重要 。) 进 一 步 讲 ， 
文字 只 是 信息 的 载体 ， 而 非 信息 本 身 。 那 么 不 用 文字 ， 而 用 其 他 的 载体 
( 比如 数字 ) 是 否 可 以 存储 同样 意义 的 信息 呢 ? 这 个 答案 是 肯定 的 ， 这 
也 是 我 们 今天 现代 通信 的 基础 。 当 然 ， 不 同 的 文明 进行 交流 时 ， 或 许 会 
用 不 同 的 文字 记载 同一 件 事情 。 这 就 有 可 能 为 我 们 破解 无 人 能 慌 的 语言 
提供 一 把 钥匙 。 


从 公元 前 7 世纪 起 ， 随 着 希腊 人 开始 卷 人 埃及 的 政权 之 争 *， 希腊 文化 开 
始 对 埃及 产生 了 影响 。 尤 其 是 后 来 希腊 人 ( 包括 马其顿 人 ) 和 罗马 人 先 
后 成 了 埃及 的 主人 ,埃及 的 语言 也 逐渐 拉丁 化 。 象 形 文字 退出 了 历史 的 
舞台 ,不 再 是 人 们 通信 的 工具 ， 而 只 是 一 种 信息 的 记载 ， 只 有 庙 里 的 詹 
司 们 能 认得 了 。 到 了 公元 4 世纪 左右 ， 罗 马 皇帝 迪奥 多 西 一 世 下 令 在 埃 
及 清除 非 基 督 教 的 宗教 ， 埃 及 的 象形 文字 从 此 失传 。1 400 多 年 后 ，1798 
年 ， 拿 破 仑 的 远征 军 来 到 埃及 ， 随 军 和 上 百名 学 者 。 一 天 ， 一 个 叫 皮 埃 
尔 ， 弗 朗 索 瓦 ， 布 沙 尔 (Pierre-Francois Bouchard ) 的 中 尉 在 一 个 叫 罗 
塞 塔 ( Rosetta ) 的 地 方 发 现 了 一 块 破碎 的 古 埃 及 石碑 (图 1.4) ， 上 面 有 
三 种 语言 : 埃及 象形 文字 、 埃 及 的 拼音 文字 和 上 古 希腊 文 。 他 意识 到 这 块 
石碑 对 破解 古 埃及 秘密 的 重要 性 ， 便 交 给 了 随行 的 科学 家 让 ， 约瑟夫 ， 
马 塞 尔 (Jean-Joseph Marcel ) ， 后 者 拓 下 了 石碑 上 的 文字 带 回 法 国 。 虽 
然 1801 年 随 着 法 国 在 埃及 战败 ， 罗 塞 塔 石碑 从 法 国人 手 里 转 到 了 英国 人 
手 里 ,但 是 马 塞 尔 带 回 的 拓片 却 在 法 国 和 欧洲 的 学 者 中 传阅 ， 直 到 21 
年 后 的 1822 年 ， 法 国语 言 学 家 商 博 良 (Jean-Francois Champollion ) 破 
解 了 罗 塞 塔 石碑 上 的 古 埃 及 象形 文字 。 可 见 文字 本 身 的 载体 是 石头 还 是 
纸张 并 不 重要 ， 它 所 承载 的 信息 才 是 最 重要 的 。 


4 
公元 前 653 年 ， 希 
腊 商 人 帮助 埃及 人 
抵抗 外 族 入侵 。 


5 
这 是 今天 大 英 博物 
馆 镇 馆 之 宝 之 一 。 
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图 14 罗 塞 塔 石碑 


罗 塞 塔 石碑 的 破译 ， 让 我 们 了 解 了 整个 埃及 从 公元 前 32 世纪 ( 早期 王朝 
时 代 ) 至 今 的 历史 ， 这 是 让 历史 学 界 和 语言 学 界 最 振奋 的 事情 。 今 天 ， 
我 们 对 5 000 年 前 埃及 的 了 解 远 比 1 000 年 前 的 玛雅 文明 要 多 得 多 ， 这 要 
归功 于 埃及 人 通过 文字 记录 了 他 们 生活 中 最 重要 的 信息 。 而 对 于 我 这 个 
长 期 从 事 自然 语言 处 理 的 学 者 来 讲 ， 这 件 事 有 两 点 指导 意义 。 


1， 信 息 的 完 余 是 信息 安全 的 保障 。 罗 塞 塔 石碑 上 的 内 容 是 同一 信 
息 重复 三 次 ， 因 此 只 要 有 一 份 内容 完 好 保留 下 来 ， 原 有 的 信息 就 不 
会 丢失 ， 这 对 信道 编码 有 指导 意义 。 ( 感谢 2 000 多 年 前 古 埃及 人 在 
罗 塞 塔 石碑 上 用 三 种 文字 记录 了 托 勒 密 五 世 登 基 的 诏书 。 ) 
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2. 语言 的 数据 ， 我 们 称 之 为 语 料 ， 尤 其 是 双语 或 者 多 语 的 对 照 语 
料 对 翻译 至 关 重 要 ， 它 是 我 们 从 事 机 器 翻译 研究 的 基础 。 在 这 个 方 
法 上 ， 我 们 并 没有 比 商 博 良 走 得 更 远 。 唯 一 不 同 的 是 ， 我 们 有 了 更 
强大 的 数学 工具 和 计算 机 ， 不 需要 花费 他 那么 长 的 时 间 。 


了 解 了 罗 塞 塔 石碑 的 历史 , 对 于 今天 很 多 翻译 软件 和 服务 都 叫做 “ 罗 塞 塔 
就 不 奇怪 了 , 这 其 中 包括 Google 的 机 器 翻译 和 世界 上 销量 最 大 的 PC 机 上 
的 翻译 软件 。 


既然 文字 是 出 现在 远古 “信息 爆炸 ”导致 人 们 的 头脑 装 不 下 这 些 信 息 的 
时 候 ， 那 么 数字 的 出 现 则 是 在 人 们 的 财产 多 到 需要 数 一 数 才 搞 清楚 有 多 
少 的 时 候 。 著 名 的 美 籍 俄 育 物理 学 家 乔治 . 伽 莫 夫 ( George Gamow， 
1904-1968 ) 在 他 的 科普 读物 《从 一 到 无 穷 大 》 一 书 中 讲 了 这 样 一 个 原始 
部 落 中 的 故事 。 两 个 疯长 要 上 比 一 比 谁 说 的 数字 大 ， 一 个 酋长 想 了 想 ， 先 
说 了 “三 ”， 第 二 个 酋长 想 了 半天 ， 说 你 赢 了 。 因 为 在 原始 部 落 ， 物 质 
极其 缺乏 ， 超 过 三 的 时 候 很 少 ， 他 们 就 称 之 为 “许多 ”或 者 叫 数 不 清 。 
因此 ， 在 那个 时 代 ， 不 可 能 有 完整 的 计数 系统 。 


当 我 们 的 祖先 需要 记录 的 物件 超过 三 时 ， 当 他 们 觉得 五 和 八 还 是 有 区 别 
的 时 候 ， 计 数 系统 就 产生 了 。 而 数字 是 计数 系统 的 基础 。 当 然 ， 早 期 数 
字 并 没有 书写 的 形式 ， 而 是 大 指头 ， 这 就 是 为 什么 我 们 今天 使 用 十 进 制 
的 原因 。 毫 无 疑问 ， 如 果 我 们 有 十 二 个 指头 ， 今 天 我 们 用 的 一 定 是 十 二 
进 制 。 而 具有 书写 形式 的 数字 和 象形 文字 应 该 诞生 于 同一 时 期 一 几乎 
所 有 早期 的 文明 对 于 数字 1、2、3 的 记录 方式 都 是 几 横 ( 中 国 )、 几 竖 ( 罗 
马 ) 或 者 几 个 模子 点 (巴比伦 , 图 1.5 ) ， 这 是 典型 的 象形 文字 的 特征 。 
因此 ， 数 字 和 其 他 文字 一 样 ， 在 早期 只 是 承载 信息 的 工具 ， 并 不 具有 任 
何 抽象 的 含义 。 


6 
十 进 制 、 十 二 进 制 
和 十 六 进 制 混杂 在 
一 起 的 复杂 单位 制 ， 
除了 美国 ， 今 天 已 
经 没有 主要 国家 使 
用 了 。 
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色 广 711 7 21 HK7 31 7 41 {Kk7 51 
8 2 ‘Ti 4722 KF CF 72 
而 3 人 13 M2 KM33 YM TM 5 
多 4 人 14 本 24 24 N44 P54 
禄 5 人 人 5 《四 2 WW35 区 由 4 芝 四 5 
那 6 人 办 1 人 十 2 《人 僻 35 世界 4 芝 办 5 
可 7 二 0 {名 121 人 要 37 说 轩 141 芝 可 5 
员 8 {他 18 {了 28 了 38 长 本 4 巡 中 5 
表 。 人 坪 南 a 人 食 : 倍 刷 1 巡 敢 5 
(10 人 az 人 30 区 ta 区 5 


图 1.5 古巴 比 伦 的 数字 


渐渐 地 ， 我 们 的 祖先 发 现 十 个 指头 不 够 用 了 。 虽 然 最 简单 的 办 法 就 是 把 
十 个 脚趾 头 也 算 上 ， 但 是 这 不 能 解决 根本 问题 。 事 实 上 ， 我 们 的 祖先 没 
有 这 样 做 ， 当 然 也许 在 欧 亚 非 大 陆 上 出 现 过 这 么 做 的 部 落 ， 但 早 就 被 灭 
绝 了 。 我 们 的 祖先 很 聪明 ， 他 们 发 明了 进位 制 ， 也 就 是 我 们 今天 说 的 逢 
十 进 一 。 这 是 人 类 在 科学 上 的 一 大 飞 ， 因 为 我 们 的 祖先 懂得 对 数量 开 
始 编码 了 , 不 同 的 数字 代表 不 同 的 量 。 几 乎 所 有 的 文明 都 采用 了 十 进 制 ， 
那么 是 否 有 文明 采用 二 十 进 制 呢 ， 也 就 是 说 他 们 数 完 全 部 的 手指 和 脚趾 
才 开 始 进位 呢 ? 答案 是 肯定 的 ， 这 就 是 玛雅 文明 。 因 此 ， 玛 雅 人 的 一 个 
世纪 ， 他 们 称 为 太阳 纪 ， 是 四 百年 。2012 年 正好 是 目前 这 个 太阳 纪 的 最 
后 一 年 ，2013 年 将 是 新 的 太阳 纪 的 开始 。 这 是 我 在 墨西哥 从 研究 玛雅 文 
化 的 教授 那里 得 知 的 。 不 知道 从 何 时 起 ，2012 年 这 个 太阳 纪 的 最 后 一 年 
被 论 传 为 世界 的 最 后 一 年 。 当 然 ， 这 是 题 外 话 了 。 


相 比 十 进 制 ， 二 十 进 制 有 很 多 不 便 之 处 。 我 们 中 国人 过 去 即使 是 不 识 
几 个 字 的 人 ， 也 能 背诵 九 九 表 。 但 是 ， 换 成 二 十 进 制 ， 要 背 的 可 就 是 
19x 19 的 围棋 盘 了 。 事 实 上 ， 很 多 过 去 使 用 英制 “的 英 联 邦 国家 ,比如 
印度 、 斯 里 兰 卡 ， 乘法 表 是 12 x 12 的 。 即 使 到 了 人 类 文明 的 中 期 ， 即 公 
元 前 后 ， 除 非 是 学 者 ， 几 乎 没有 人 能 够 做 到 这 一 点 。 我 想 这 可 能 是 玛雅 
文明 发 展 非常 缓慢 的 原因 之 一 , 当然 更 重要 的 原因 是 它 的 文字 极为 复杂 ， 
以 至 于 每 个 部 落 没 有 几 个 人 能 认识 。 
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对 于 不 同位 数 数 字 的 表示 ， 中 国人 和 罗马 人 都 用 明确 的 单位 来 表示 数字 
的 不 同 量 级 ， 中 国人 是 用 个 十 百 千 万 亿 兆 7。 罗马 人 用 工 代表 个 ，V 代 
表 5, X 代 表 10, 工 代 表 50，C 代表 100, D 代表 500，M 代表 1000， 
再 往 上 就 没有 了 。 这 两 种 表示 法 都 不 自觉 地 引入 了 朴素 的 编码 的 概念 。 
首先 ， 它 们 都 是 用 不 同 的 符号 代表 不 同 的 数字 概念 ; 第 二 ， 它 们 分 别 
制定 了 解码 的 规则 。 在 中 国 ， 解 码 的 规则 是 乘法 。200 万 的 写法 含义 是 
2x 100x10000; 而 在 罗马 , 解码 的 规则 是 加 减法 一 小 数字 出 现在 大 数 
字 左 边 为 减 , 右边 为 加 。 比 如 IV 表示 5-1=4,，VI 表示 5+2=7，IIXX 
表示 20-2 = 18。 这 个 规则 不 仅 复杂 ， 而 且 对 于 大 的 数字 很 难 描述 。 罗 马 
人 要 写 100 万 的 话 , 铅 怕 要 MMMM… 地 不 断 写 下 去 , 写 满 一 整 块 黑板 ， 
直到 近代 他 们 才 在 M 上 用 上 划 线 表示 几 万 和 几 十 万 。 因 此 ， 从 编码 的 有 
效 性 来 讲 ， 中 国人 的 做 法 比 罗马 人 高 明 *。 


图 1.6 一 位 罗马 学 者 试图 在 黑板 上 写 出 100 万 


描述 数字 最 有 效 的 是 古 印度 人 ， 他 们 发 明了 包括 0 在 内 的 10 个 阿拉 伯 数 
字 ”， 就 是 今天 全 世界 通用 的 数字 。 这 种 表示 方法 比 中 国 和 罗马 的 都 抽象 ; 
但 是 使 用 方便 。 因 此 ， 它 们 由 阿拉 伯 人 传人 欧洲 后 ， 马 上 得 到 普及 。 只 
是 欧洲 人 并 不 知道 这 些 数字 的 真正 发 明 者 是 印度 人 ， 而 把 功劳 给 了 “二 
道 贩子 ”阿拉 伯 人 。 阿 拉 伯 数字 或 者 说 印度 数字 的 革命 性 不 仅 在 于 它 的 


7 
兆 本 身 又 有 两 个 含 
义 : 百 万 和 万 亿 。 
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实际 上 ， 罗 马 人 的 
老师 希腊 人 的 计数 
方式 和 中 国 古代 跨 
为 相似 ， 不 知 为 什 
么 ,罗马 人 没 学 会 
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这 个 0 很 重要 ， 否 
则 就 需要 许多 描述 
进 制 的 量词 ， 如 个 
十 百 于 万 等 。 
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最 早 的 泥 板 年 代 在 
公元 前 26 世纪 或 者 
更 远 , 迄今 有 4700 
年 左右 的 历史 。 


简洁 有 效 ， 而 且 标志 着 数字 和 文字 的 分 离 。 这 在 客观 上 让 自然 语言 的 研 
究 和 数学 在 几 千年 里 没有 重复 的 轨迹 ， 而 且 越 走 越 远 。 


3 文字 和 语言 背后 的 数学 


但 是 ， 任 何事 物 的 规律 性 是 内 在 的 ， 并 不 随 它 的 载体 而 改变 。 自 然 语 言 
的 发 展 在 冥 冥 之 中 ， 都 受 着 信息 科学 规律 的 引导 。 


当 人 类 第 二 个 文明 的 中 心 古巴 比 伦 在 两 河流 域 的 美 索 不 达 米 亚 建立 的 时 
候 ， 一 种 新 的 文字 一 - 棉 形 文字 诞生 了 。 考 古 学 家 和 语言 学 家 最 初 看 到 
这 些 刻 在 泥 板 和 石板 ”上 ， 与 埃及 象形 文字 多 少 有 点 相像 的 符号 时 ， 以 
为 它们 是 另 一 种 象形 文字 。 但 是 很 快 他 们 就 发 现 这 些 文字 其 实 是 拼音 文 
字 ， 是 我 们 这 个 星球 上 最 古老 的 拼音 文字 ， 每 个 形状 不 同 的 模子 实际 上 
是 一 个 不 同 的 字母 。 如 果 把 中 文 的 笔画 作为 字母 ， 它 其 实 也 是 一 种 拼音 
文字 , 不 过 它 是 二 维 的 而 已 。( 不 过 , 为 了 和 罗马 体系 的 拼音 文字 相 区 别 ， 
在 这 本 书 中 我 们 会 把 汉字 称 为 意 型 文字 。 ) 大 英 博物 馆 保存 了 上 万 块 这 
种 泥 板 和 石板 ， 上 面 都 是 枢 形 文字 。 这 些 刻 满 了 文字 的 石板 和 泥 板 与 亚 
述 浮雕 一 起 ， 被 认为 是 最 有 价值 的 古巴 比 伦 文物 。 


拼音 文字 由 腓 尼 基 人 从 以 古巴 比 伦 为 中 心 的 美 索 不 达 米 亚 带 到 地 中 海 东 
岸 的 叙利亚 。 腓 尼 基 人 是 天 生 的 商人 ， 不 愿意 把 大 量 的 时 间 花 在 雕刻 这 
些 漂亮 的 棉 形 字母 上 ， 而 将 它们 简化 成 22 个 字母 。 这 些 字 母 随 着 腓 尼 基 
人 的 商 团 经 爱 琴海 诸 岛 ( 如 克 里 特 岛 ) , 然后 传 给 了 希腊 人 的 祖先 。 但 是 ， 
拼音 文字 在 古 希 腊 得 到 了 充分 的 发 展 , 和 古巴 比 伦 的 棉 形 字母 已 经 不 同 
古 希腊 文字 母 的 拼写 和 读音 已 经 紧密 地 结合 起 来 了 ， 这 种 语言 相对 容易 
学 习 。 在 今后 的 几 个 世纪 里 ， 伴 随 着 马其顿 人 以 及 几 个 世纪 后 的 罗马 人 
的 扩张 ， 这 些 只 需要 几 十 个 字母 的 语言 成 为 了 欧 亚 非 大 陆 语言 体系 的 主 
体 ， 因 此 ， 今 天 我 们 把 所 有 西方 的 拼音 文字 称 为 罗马 式 的 语言 《Roman 


Languages ) 。 


从 象形 文字 到 拼音 文字 是 一 个 飞 牙 ， 因 为 人 类 在 描述 物体 的 方式 上 ， 从 
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物体 的 外 表 到 抽象 的 概念 ， 同 时 不 自觉 地 采用 了 对 信息 的 编码 。 不 仅 如 
此 ， 我 们 的 祖先 对 文字 的 编码 还 非常 合理 。 在 罗马 体系 的 文字 中 ， 总 体 
来 讲 ， 常 用 字 短 ， 生 个 字 长 。 而 在 意 型 文字 中 ， 也 是 类 似 ， 大 多 常用 字 
笔画 少 ， 而 生僻 字 笔 画 多 。 这 完全 符合 信息 论 中 的 最 短 编码 原理 ， 虽 然 
我 们 的 祖先 并 不 懂 信息 论 。 这 种 文字 设计 ( 其 实 是 一 种 编码 方法 ) 带 来 
的 好 处 是 书写 起 来 省 时 间 、 省 材料 。 


在 蔡伦 发 明 纸张 以 前 , 书写 文字 不 是 一 件 容易 的 事情 。 就 以 中 文 为 例 ， 
在 东汉 以 前 要 将 文字 刻 在 其 他 物件 比如 龟 壳 、 石 碑 和 竹简 上 。 由 于 刻 一 
个 字 的 时 间 相 当 长 ,因此 要 惜 墨 如 金 。 这 就 使 得 我 们 的 古文 ( 书面 文字 ) 
非常 简洁 , 但 是 非常 难 慌 , 而 同时 期 的 口语 却 和 今天 的 白话 差别 不 大 ， 
语句 较 长 但 是 易 慌 。 ( 岭南 客家 话 基本 上 保留 了 古代 口语 的 原貌 ， 写 出 
来 和 我 们 清末 民 初 的 白话 颇 为 相似 。) 这 种 现象 非常 符合 今天 信息 科学 
(和 工程 ) 的 一 些 基本 原理 ， 就 是 在 通信 时 ， 如 果 信 道 较 宽 ， 信 息 不 必 
压缩 就 可 以 直接 传递 ; 而 如 果 信道 很 窗 ， 信 息 在 传递 前 需要 尽 可 能 地 压 
缩 ， 然 后 在 接收 端 进行 解压 缩 。 在 古代 ， 两 个 人 讲话 说 得 快 是 一 个 宽 信 
道 , 无 需 压 缩 ; 书写 来 得 慢 是 一 个 窗 信 道 ， 需 要 压缩 。 将 日 常 的 白话 口 
语 写 成 精简 的 文言 文本 身 是 信道 压缩 的 过 程 ， 而 将 文言 文 解释 清楚 是 解 
压缩 的 过 程 。 这 个 现象 与 我 们 今天 宽带 互联 网 和 无 线 WAP 互联 网 网 页 
的 设计 完全 一 致 ， 前 者 是 经 过 一 个 宽带 传输 ， 因 此 页 面 设计 得 较 大 ; 而 
后 者 由 于 空中 频道 带宽 的 限制 ， 传 输 速度 要 慢 一 到 两 个 数量 级 ， 因 此 
WAP 页 面 都 非常 小 。 由 此 可 见 ， 在 信息 论 尚未 被 发 明 的 几 千年 前 ， 中 国 
人 已 经 无 意识 地 遵照 它 的 规律 行事 了 。 


当 司 马 迁 用 近 53 万 字 记载 了 中 国 上 千年 历史 的 同时 ， 远 在 中 东 的 犹太 人 
也 用 类 似 的 篇 幅 记载 了 自 创 世纪 以 来 , 主要 是 摩西 以 来 他 们 祖先 的 历史 ， 
这 就 是 《圣经 》 中 的 《 旧 约 》 部 分 “。《 圣 经》 简洁 的 文风 和 中 国 的 《史记 》 
颇 有 相似 之 处 。 但 是 和 《史记 》 这 本 由 唯一 作者 写成 的 史书 不 同 , 《圣经 》 
的 写作 持续 了 很 多 世纪 ， 后 世 的 人 在 做 补充 时 ， 看 到 的 是 几 百 年 前 甚至 
上 千年 前 原作 的 抄本 。 抄 写 的 错误 便 在 所 难免 。 据 说 今天 也 只 有 牛津 大 


u 

《圣经 》 的 中 译本 ， 
不 同 版 本 字数 不 同 ， 
大 约 在 90-100 万 字 
之 间 。 其 中 《IB 约 》 
和 《新 约 》 大 致 名 
点 篇幅 的 一 半 ， 约 
画 万 字 。 
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学 保留 了 一 本 没有 任何 错误 的 二 本。 虽然 做 事 认真 的 犹太 人 要 求 在 抄写 
《圣经 》 时 ， 要 诬 诚 并 且 打 起 十 二 分 精神 ,尤其 是 每 写 到 “上 帝 ” ( God 
和 Lord ) 这 个 词 时 要 去 洗手 祈祷 ， 但 是 抄写 铺 误 还 是 难以 避免 。 于 是 狂 
太 人 发 明了 一 种 类 似 于 我 们 今天 计算 机 和 通信 中 校 验 码 的 方法 。 他 们 把 
每 一 个 希 伯 来 字母 对 应 于 一 个 数字 ， 这 样 每 行文 字 加 起 来 便 得 到 一 个 特 
殊 的 数字 ， 这 个 数字 便 成 为 了 这 一 行 的 校 验 码 。 同 样 ， 对 于 每 一 列 也 是 
这 样 处 理 。 当 犹太 学 者 抄 完 一 页 《圣经 》 时 ， 他 们 需要 把 每 一 行 的 文字 
加 起 来 ， 看 看 新 的 校 验 码 是 否 和 原文 的 相同 ， 然 后 对 每 .一 页 进行 同样 的 
nm 处 理 ”。 如 果 这 一 页 每 一 行 和 每 一 列 的 校 验 码 和 原文 完全 相同 ， 说 明 这 
a 一 页 的 抄写 无 误 。 如 果菜 行 的 校 验 码 和 原文 中 的 对 应 不 上 ， 则 说 明 这 一 
weesmeson 。 行 至 少 有 一 个 抄写 错误 。 当 然 ,错误 对 应 列 的 校 验 码 也 一 定 和 原文 对 不 上 


Evidences, nd 这样 可 以 很 快 找到 出 错 的 地 方 。 这 背后 的 原理 和 我 们 今天 的 各 种 校 验 是 
Accessed October 相同 的 


11,2008. 


-HH 


” 


图 17 古 犹太 人 抄写 圣经 ， 要 检查 每 一 行 、 每 一 列 的 校 验 是 否 正确 


第 1 章 文字 和 语言 vs 数字 和 信息 川 13 


语言 从 古语 发 展 到 现代 语言 ， 在 表达 含义 上 比 以 前 更 准确 、 更 丰富 ， 这 
里 面 语 法 起 到 了 很 大 的 作用 。 我 不 是 语言 史学 家 ,没有 去 考证 最 早 语法 
出 现 的 年 代 , 但 是 大 抵 可 以 肯定 在 古 希 腊 时 期 就 开始 成 型 了 ”。 如 果 说 从 
字母 到 词 的 构词法 ( Morphology ) 是 词 的 编码 规则 ， 那 么 语法 则 是 语言 
的 编码 和 解码 规则 。 不 过 , 相 比 较 而 言 ， 词 可 以 被 认为 是 有 限 而 且 封闭 的 
集合 ， 而 语言 则 是 无 限 和 开放 的 集合 。 从 数学 上 讲 ， 对 于 前 者 可 以 有 完 
备 的 编 解码 规则 ， 而 后 者 则 不 具备 这 个 特性 。 因 此 ， 任 何 语言 都 有 语法 
规则 覆盖 不 到 的 地 方 ， 这 些 例外 或 者 说 不 精确 性 ， 让 我 们 的 语言 丰富 多 
彩 。 虽 然 正统 而 教条 的 语言 学 家 倾向 于 把 这 些 例外 作为 “病句 ”， 并 且 
有 的 人 毕 其 一 生 的 精力 来 消灭 病句 ， 纯 化 语言 ， 但 是 事实 证 明 这 种 工作 
是 徒劳 的 。 莎 士 比 亚 的 作品 在 他 的 时 代 完 全 是 通俗 而 大 众 化 的 ， 其 中 包 
括 大 量 和 古语 法 相 违背 的 名 句 ， 那 个 时 代 就 开始 有 人 试图 完善 ( 其 实 是 
算 改 ) 莎士比亚 剧 。 可 今天 这 些 语言 不 但 没有 消失 反而 成 了 经 典 ， 而 试 
图 完善 他 的 著作 的 人 却 早已 为 大 众 遗 忘 。 


这 就 涉及 到 一 个 语言 学 研究 方法 的 问题 : 到 底 是 语言 对 , 还 是 语法 对 。 
前 者 坚持 从 真实 的 语句 文本 ( 称 为 语 料 ) 出 发 ， 而 后 者 坚持 从 规则 出 
发 。 经 过 三 四 十 年 的 争论 ， 最 后 实践 是 检验 真理 的 唯一 标准 ， 自 然 语 
言 处 理 的 成 就 最 终 宣布 了 前 者 的 获胜 。 这 段 经 过 , 我 们 会 在 第 2 章 “ 自 
然 语言 处 理 一 从 规则 到 统计 ”中 介绍 。 


4 小 结 


我 们 在 这 一 章 中 讲述 了 文字 、 数 字 和 语言 的 历史 ， 目 的 是 帮助 读者 感受 
语言 和 数学 天 然 、 内 在 的 联系 。 这 里 提 到 了 一 些 概念 和 主题 ， 它 们 是 我 
们 在 后 面 的 章节 中 讨论 的 重点 ， 包 括 : 

。 通信 的 原理 和 信息 传播 的 模型 

。 【〈 信 源 ) 编码 和 最 短 编码 

。 解码 的 规则 ， 语 法 


13 
也 有 人 认为 在 更 早 
的 古巴 比 伦 语 中 就 
形成 了 。 
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。 聚 类 

。 校 验 位 

。 ”双语 对 照 文本 ,语料库 和 机 器 翻译 

。 多 义 性 和 利用 上 下 文 消除 歧义 性 
这 些 今天 自然 语言 处 理学 者 们 研究 的 问题 ， 我 们 的 祖先 在 设计 语言 的 时 
候 其 实 已 经 遇 到 了 ， 并 且 用 类 似 今天 的 方法 解决 了 ,虽然 他 们 的 认识 大 


多 是 自发 的 ， 而 不 是 自沉 的。 他们 过 去 遵循 的 法 则 和 我 们 今天 探求 的 研 
究 方法 背后 有 着 共同 的 东西 ， 这 就 是 数学 规律 。 


第 2 章 自然 语言 处 理 一 从 规则 到 
统计 


在 上 一 章 讲 到 ， 语 言 出 现 的 目的 是 为 了 人 类 之 间 的 通信 。 字 母 ( 或 者 中 
文 的 笔画 ) 、 文 字 和 数字 实际 上 是 信息 编码 的 不 同 单位 。 任 何 一 种 语言 
都 是 一 种 编码 的 方式 ， 而 语言 的 语法 规则 是 编 解码 的 算法 。 我 们 把 一 个 
要 表达 的 意思 ， 通 过 某 种 语言 的 一 句 话 表达 出 来 ， 就 是 用 这 种 语言 的 编 
码 方式 对 头脑 中 的 信息 做 了 一 次 编码 ， 编 码 的 结果 就 是 一 串 文字 。 而 如 
果 对 方 懂得 这 门 语言 ， 他 或 者 她 就 可 以 用 这 门 语言 的 解码 方法 获得 说 话 
人 要 表达 的 信息 。 这 就 是 语言 的 数学 本 质 。 虽 然 传递 信息 是 动物 也 能 做 
到 的 ， 但 是 利用 语言 来 传递 信息 是 人 类 的 特质 。 


1946 年 ， 现代 电子 计算 机 出 现 以 后 , 计算 机 在 很 多 事情 上 做 得 比 人 还 好 。 
既然 如 此 ， 机 器 是 否 能 够 懂得 自然 语言 呢 ? 事实 上 当 计算 机 一 出 现 ， 人 
类 就 开始 琢磨 这 件 事 。 这 里 面 涉 及 到 两 个 认 知 方面 的 问题 : 第 一 ， 计 算 
机 是 否 能 处 理 自然 语言 ; 第 二 ， 如 果 能 ， 那 么 它 处 理 自然 语言 的 方法 是 
否 和 人 类 一 样 。 这 本 书 将 回答 这 两 个 问题 。 为 了 不 吊 读者 的 胃口 ， 我 在 
这 里 先 给 出 简洁 版 的 答案 : 对 这 两 个 问题 的 回答 都 是 肯定 的 ，Yes ! 
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1 机 器 智能 


最 早 提出 机 器 智能 设想 的 是 计算 机 科学 之 父 阿兰 ' 图 灵 (Alan 
Turing ) ，1950 年 他 在 《思想 》 ( Mind ) 杂志 上 发 表 了 一 篇 题 为 “ 计 
算 的 机 器 和 智能 ”的 论文 。 在 论文 中 , 图 灵 并 没有 提出 什么 研究 的 方法 ， 
而 是 提出 了 一 种 来 验证 机 器 是 否 有 智能 的 方法 : 让 人 和 机 器 进行 交流 ( 图 
2.1 ) ， 如 果 人 无 法 判断 自己 交流 的 对 象 是 人 还 是 机 器 时 ， 就 说 明 这 个 
机 器 有 智能 了 。 这 种 方法 被 后 人 称 为 图 灵 测 试 (Turing Test ) 。 图 灵 
其 实 是 留 下 了 一 个 问题 ， 而 非 答案 ， 但 是 一 般 认为 自然 语言 的 机 器 处 理 
(现在 称 作 自然 语言 处 理 ) 的 历史 可 以 追溯 到 那个 时 候 ， 至 今 已 经 60 
多 年 了 。 


图 21 搞 不 清 后 面 是 人 还 是 机 器 


自然 语言 处 理 60 多 年 的 发 展 过 程 ， 基 本 上 可 以 分 成 两 个 阶段 。 早 期 的 20 
多 年 ， 即 从 20 世纪 50 年 代 到 70 年 代 ， 是 科学 家 们 走 弯路 的 阶段 。 全 世 
界 的 科学 家 对 计算 机 处 理 自然 语言 的 认识 都 被 自己 局 限 在 人 类 学 习 语言 
的 方式 上 ， 也 就 是 说 ， 用 电脑 模拟 人 脑 ， 这 20 多 年 的 成 果 近 乎 为 零 。 
直到 20 世纪 70 年 代 ， 一 些 自然 语言 处 理 的 先驱 重新 认识 这 个 问题 ， 找 
到 了 基于 数学 模型 和 统计 的 方法 ， 自 然 语言 处 理 进入 第 二 个 阶段 。30 多 
年 来 ， 这 个 领域 取得 了 实质 性 的 突破 ， 并 且 让 自然 语言 处 理 在 很 多 产品 
中 得 以 广泛 应 用 。 虽 然 早期 自然 语言 处 理 的 工作 对 今天 没有 任何 指导 意 
义 ， 但 是 了 解 几 代 科学 家 的 认识 过 程 ， 对 我 们 了 解 自然 语言 处 理 的 方法 
很 有 好 处 ， 同 时 也 让 我 们 避免 走 前 人 的 弯路 。 
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让 我 们 回 到 1956 年 的 夏天 。28 岁 的 约翰 . 麦卡锡 ( John McCarthy ) ,以 

及 同年 龄 的 马 文明 斯 基 ( Marvin Minsky ) , 37 岁 的 罗切斯特 ( Nathaniel 

Rochester ) 和 40 岁 的 香农 ， 他 们 4 人 提议 在 麦卡锡 工作 的 达 特 茅 斯 学 

院 开 了 一 个 被 他 们 称 为 “ 达 特 茅 斯 夏季 人 工 智能 研究 会 议 ”的 头脑 风暴 2 

式 的 研讨 会 。 参 加 会 议 的 还 有 6 位 年 轻 的 科学 家 ， 包 括 40 岁 的 赫 伯 特 。 多 >” 
西蒙 ( Herbert Simon ) 和 28 岁 的 艾 伦 . 纽 维尔 ( Allen Newell ) 。 在 这 ed 
次 研讨 会 上 ， 这 10 个 人 讨论 当时 计算 机 科学 尚未 解决 的 问题 ， 包 括 人 工 

智能 、 自 然 语言 处 理 和 神经 网 络 等 。 人 工 智能 这 个 提 法 便 是 在 这 次 会 议 

上 提出 的 。 这 10 个 人 , 除了 香农 ， 当 时 大 多 没有 什么 名 气 。 但 是 没关系 ， 

这 些 年 轻 人 默默 无 闻 的 时 间 不 会 太 久 ， 后 来 这 些 人 都 非常 了 不 起 ， 其 中 

出 了 4 位 图 灵 奖 获得 者 ( 麦卡锡 、 明 斯 基 、 西 蒙 和 纽 维尔 ) 。 当 然 香 农 

不 必得 什么 图 灵 奖 ， 作 为 信息 论 的 发 明 人 ， 他 在 科学 史上 的 地 位 和 图 灵 


是 相当 的 ， 而 且 通 信和 领域 的 最 高 奖 就 是 以 他 的 名 字 命 名 的 。 


达 特 茅 斯 会 议 的 意义 超过 10 个 图 灵 奖 。 这 10 位 后 来 被 证 明 是 20 世纪 IT 
领域 最 优秀 的 科学 家 ， 开 创 了 很 多 今天 依然 活跃 的 研究 领域 ， 而 这 些 研 
究 领 域 的 成 功 使 我 们 的 生活 变 得 十 分 美好 。 遗憾 的 是 , 受 历史 的 局 限 ， 
这 10 个 世界 上 最 聪明 的 头脑 一 个 月 的 火花 碰撞 ， 并 没有 产生 什么 了 不 起 
的 思想 ， 他 们 对 自然 语言 处 理 理解 的 总 和 ， 甚 至 不 如 今天 一 位 世界 一 流 
大 学 的 博士 毕业 生 。 这 是 因为 在 当时 ， 全 世界 对 自然 语言 处 理 的 研究 都 
陷 人 了 一 个 误区 。 


那 时 候 学 术 界 对 人 工 智能 和 自然 语言 理解 的 普遍 认识 是 这 样 的 : 要 让 机 
器 完成 翻译 或 者 语音 识别 这 样 只 有 人 类 才能 做 的 事情 ， 就 必须 先 让 计算 
机 理解 自然 语言 ， 而 做 到 这 一 点 就 必须 让 计算 机 有 类 似 我 们 人 类 这 样 的 
智能 。 (今天 几乎 所 有 的 科学 家 都 不 坚持 这 一 点 ， 而 很 多 的 门外汉 还 误 
以 为 计算 机 是 靠 类 似 我 们 人 类 的 这 种 智能 解决 了 上 述 问题 。 ) 为 什么 会 
有 这 样 的 认识 ? 因为 人 类 就 是 这 么 做 的 , 道理 就 这 么 简单 对 于 人 类 来 讲 ， 
一 个 能 把 英语 翻译 成 汉语 的 人 , 一 定 是 能 非常 好 地 理解 这 两 种 语言 的 。 这 
就 是 直觉 的 作用 。 在 人 工 智 能 领域 ， 包 括 自然 语言 处 理 领域 ， 后 来 把 这 
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样 的 方法 论 称 作 “ 鸟 飞 派 ”， 也 就 是 看 看 鸟 是 怎样 飞 的 ， 就 能 模仿 鸟 造 
出 飞机 ， 而 不 需要 了 解 空气 动力 学 。 事 实 上 我 们 知道 ， 怀 特 兄弟 发 明 飞 
机 人 靠 的 是 空气 动力 学 而 不 是 仿生 学 。 在 这 里 ， 我 们 不 要 笑话 我 们 前 辈 来 
自 于 直觉 的 天 真 想法 ， 这 是 人 类 认识 的 普遍 规律 。 今 天 ， 机 器 翻译 和 语 
音 识别 已 经 做 得 不 错 ， 并 且 有 上 亿 人 使 用 过 ， 但 是 大 部 分 这 个 领域 之 外 
的 人 依然 错误 地 以 为 这 两 个 应 用 是 靠 计算 机 理解 了 自然 语言 而 完成 的 。 
事实 上 ， 它 们 全 都 靠 得 是 数学 ， 更 准确 地 说 是 靠 统计 。 


在 20 世 纪 60 年 代 , 摆 在 科学 家 面前 的 问题 是 怎样 才能 理解 自然 语言 。 当 
时 普遍 的 认识 是 首先 要 做 好 两 件 事 ， 即 分 析 语句 和 获取 语义 。 这 实际 上 
又 是 惯性 思维 的 结果 -一 它 受到 传统 语言 学 研究 的 影响 。 从 中 世纪 以 
来 ， 语 法 一 直 是 欧洲 大 学 教授 的 主要 课程 之 一 。 到 16 世纪 ， 伴 随 着 《 圣 
经 》 被 翻译 介绍 到 欧洲 以 外 的 国家 , 这 些 国家 的 语言 语法 逐步 得 到 完善 。 
到 18、19 世纪 ， 西 方 的 语言 学 家 们 已 经 对 各 种 自然 语言 进行 了 非常 形式 
化 的 总 结 , 这 方面 的 论文 非常 多 , 形成 了 十 分 完备 的 体系 。 学 习 西 方 语言 ， 
都 要 学 习 它 们 的 语法 规则 ( Grammar Rules ) 、 词 性 ( Part of Speech ) 
和 构词法 ( Morphologic ) 等 。 当 然 ， 应 该 承认 这 些 规 则 是 我 们 人 类 学 习 
语言 ( 尤其 是 外 语 ) 的 好 工具 。 而 恰恰 这 些 语法 规则 又 很 容易 用 计算 机 
的 算法 描述 ， 这 就 更 坚定 了 大 家 对 基于 规则 的 自然 语言 处 理 的 信心 。 


对 于 语义 的 研究 和 分 析 ， 相 比较 而 言 要 不 系统 得 多 。 语 义 也 比 语法 更 难 
在 计算 机 中 表达 出 来 ， 因 此 直到 20 世纪 70 年 代 ， 这 方面 的 工作 仍然 乏 
善 可 陈 。 值 得 一 提 的 是 ， 中 国 古代 语言 学 的 研究 主要 集中 在 语义 而 非 语 
法 上 。 很 多 古老 的 专著 ,比如 《说 文 解 字 》 等 都 是 语义 学 研究 的 成 果 。 
由 于 语义 对 于 我 们 理解 自然 语言 是 不 可 或 缺 的 ， 因 此 各 国政 府 在 把 很 大 
比例 的 研究 经 费 提供 给 “句法 分 析 ” 相 关 研 究 的 同时 ， 也 把 一 部 分 钱 给 
了 语义 分 析 和 知识 表示 等 课题 。 现 在 把 当时 科学 家 头脑 里 的 自然 语言 处 
理 从 研究 到 应 用 的 依赖 关系 用 图 2.2 来 描述 。 
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应 用 层 Cana ) Cams (Gua) 二 要 ) 


认 知 层 自然 语言 理解 | 


基础 层 句法 分 析 语义 分 析 


图 2.2 早期 对 自然 语言 处 理 的 理解 
让 我 们 集中 看 看 句法 分 析 。 先 看 下 面 一 个 简单 的 句子 
徐 志摩 喜欢 林徽因 。 


这 个 句子 可 以 分 为 主语 、 动 词 短语 ( 即 谓语 ) 和 句号 三 部 分 ，， 然 后 可 以 ”3 

由 于 不 同 的 人 对 同 
对 每 个 部 分 作 进一步 分 析 ， 得 到 如 下 的 语法 分 析 树 〈 Parse Tree ) : 一 个 句子 的 句法 分 
析 经 常 不 一 致 ， 因 
此 ， 本 书 凡 涉及 到 
名 法 分 析 和 词性 标 
注 等 例子 ， 一 律 以 
宾夕法尼亚 大 学 语 
计数 据 库 (LDC ) 的 
标准 为 准 。 为 了 方 
便 读者 阅读 ， 我 把 
Lpc 的 各 种 表示 按 


pe 
Ea 


句号 


[sm ] (a 
[eem | (ww | 


图 2.3 句子 的 语法 分 析 树 


分 析 它 采用 的 文法 规则 通常 被 计算 机 科学 家 和 语言 学 家 称 为 重 写 规则 
( Rewrite Rules ) ， 具 体 到 上 面 的 句子 ， 重 写 规 则 包括 : 
句子 一 主语 谓语 句号 

主语 一 名 词 

谓语 一 动词 ”名 词 短 语 
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4 
在 自然 语言 处 理学 
术 领 域 ， 各 国 为 了 
实验 结果 可 以 对 比 ， 
一 般 采 用 《华尔街 
日 报 》 的 语 料 。 


5 
原 句子 是 这 样 的 

“The Fed Chair 
man Ben Benanke 
told media yesterday 
that $700B bailout 
funds would be 
lended to hundreds 
of banks, insurance 
companies and auto- 


makers” 


名 词 短语 一 名 词 
名 词 一 徐 志摩 
动词 一 喜欢 

名 词 一 林徽因 
句号 一 。 


20 世纪 80 年 代 以 前 ， 自 然 语 言 处 理工 作 中 的 文法 规则 都 是 人 写 的 ， 这 
和 后 来 采用 机 器 总 结 的 做 法 大 不 相同 。 直 到 2000 年 后 ， 很 多 公司 ， 比 如 
著名 的 机 器 翻译 公司 SysTran， 还 是 靠 人 来 总 结 文法 规则 。 


20 世 纪 60 年 代 ,基于 乔 姆 斯 基 形式 语言 的 编译 器 技术 得 到 了 很 大 的 发 展 ， 
计算 机 高 级 程序 语言 都 可 以 概括 成 上 下 文 无 关 的 文法 , 这 是 一 个 在 算法 上 
可 以 在 多 项 式 时 间 内 解决 的 问题 ( Polynomial Problem， 详 见 附录 ) 。 高 
级 程序 语言 的 规则 和 上 述 自然 语言 的 规则 从 形式 上 看 很 相似 。 因 此 ， 很 
容易 想到 用 类 似 的 方法 分 析 自 然 语 言 。 那 时 ， 科 学 家 们 设计 了 一 些 非常 
简单 的 自然 语句 的 语法 分 析 器 ( Parser ) , 可 以 分 析 词汇 表 为 百 十 来 个 词 、 
同时 长 度 为 个 位 数 的 简单 语句 ( 不 能 有 很 复杂 的 从 名 ) 。 


科学 家 们 原本 以 为 随 着 对 自然 语言 语法 概括 得 越 来 越 全 面 ， 同 时 计算 机 
计算 能 力 的 提高 ， 这 种 方法 可 以 逐步 解决 自然 语言 理解 的 问题 。 但 是 这 
种 想法 很 快 遇 到 了 麻烦 。 我 们 从 上 图 可 以 看 出 , 句法 分 析 实 际 上 是 一 件 很 
罗 唆 的 事 : 一 个 短 短 的 句子 居然 分 析出 这 么 一 个 复杂 的 二 维 树 结构 ， 而 
且 居 然 需要 八条 文法 规则 ,即使 蚀 去 词性 标注 的 后 四 条 依然 还 有 四 条 。 当 
然 让 计算 机 处 理 上 述 分 析 还 是 不 难 的 ,但 要 处 理 下 面 《华尔街 日 报 》* 的 
一 个 真实 句子 就 不 是 那么 容易 办 到 了 : 


美联储 主席 本 伯 南 克 昨 天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 借 给 上 百 家 银 行 、 保 
险 公司 和 汽车 公司 。“ 


虽然 这 个 句子 依然 符合 “句子 一 主语 谓语 句号 ”这 条 文法 规则 :; 
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主语 【 美联储 主席 本 伯 南 克 】|| 动词 短语 【昨天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 
借 给 上 百 家 银 行 、 保 险 公司 和 汽车 公司 】|| 句号 [。】 


然后 , 接 下 来 可 以 进行 进一步 的 划分 , 比如 主语 “美联储 主席 本 伯 南 克 ” 
分 解 成 两 个 名 词 短语 “美联储 主席 ”和 “本 伯 南 克 ”， 当 然 ， 前 者 修 
饰 后 者 。 对 于 动词 短语 也 可 以 做 同样 的 分 析 。 这 样 ,任何 一 个 线性 的 语句 ， 
可 以 被 分 析 成 这 样 一 棵 二 维 的 语法 分 析 树 ( Parse Tree ) 。 我 们 没有 将 
完整 的 分 析 树 画 出 来 ， 是 因为 在 这 本 书 一 页 纸 上 ， 无 法 画 出 整个 语法 
分 析 树 一 这 棵 树 非常 大 ， 非 常 复杂 。 应 该 讲 ， 单 纯 基于 文法 规则 的 分 
析 器 是 处 理 不 了 上 面 这 样 复杂 的 语句 的 。 


这 里 面 至 少 有 两 个 越 不 过 去 的 坎 儿 。 首 先 ， 要 想 通 过 文法 规则 覆盖 哪怕 
20% 的 真实 语句 ， 文 法 规则 的 数量 ( 不 包括 词性 标注 的 规则 ) 至 少 是 几 
万 条 。 语 言 学 家 几乎 已 经 是 来 不 及 写 了 ， 而 且 这 些 文法 规则 写 到 后 来 其 
至 会 出 现 矛盾 , 为 了 解决 这 些 矛 盾 , 还 要 说 明 各 个 规则 特定 的 使 用 环境 。 
如 果 想 要 覆盖 50% 以 上 的 语句 ， 文 法 规则 的 数量 最 后 会 多 到 每 增加 一 个 
新 句子 ,就 要 加 入 一 些 新 的 文法 。 这 种 现象 不 仅 出 现在 计算 机 处 理 语言 上 ， 
而 且 出 现在 人 类 学 习 和 自己 母语 不 同 语系 的 外 语 时 。 今 天 30 岁 以 上 的 人 
都 应 该 会 有 这 种 体会 : 无 论 在 中 学 和 大 学 英语 考试 成 绩 多 么 好 ， 也 未 必 
能 考 好 GRE， 更 谈 不 上 看 屋 英文 的 电影 。 原 因 就 是 我 们 即使 学 了 10 年 的 
英语 语法 ， 也 不 能 涵盖 全 部 的 英语 。 


其 次 ， 即 使 能 够 写 出 涵盖 所 有 自然 语言 现象 的 语法 规则 集合 ， 用 计算 机 
解析 它 也 是 相当 困难 的 。 描 述 自然 语言 的 文法 和 计算 机 高 级 程序 语言 
的 文法 不 同 。 自 然 语言 在 演变 过 程 中 ， 产 生 了 词义 和 上 下 文 相关 的 特 
性 。 因 此 ， 它 的 文法 是 比较 复杂 的 上 下 文 有 关 文 法 ( Context Dependent 
Grammar ) ， 而 程序 语言 是 我 们 人 为 设计 的 ， 为 了 便于 计算 机 解码 的 上 
下 文 无 关 文 法 ( Context Independent Grammar ) ， 相 比 自然 语言 而 言 简 
单 得 多 。 理 解 两 者 的 计算 量 不 可 同日 而 语 。 


在 计算 机 科学 中 ， 图 灵 奖 得 主 高 德 纳 ( Donald Knuth ) 提出 了 用 计算 复 
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杂 度 ( Computational Complexity， 请 见 附录 ) 来 衡量 算法 的 耗 时 。 对 于 
上 下 文 无 关 文法 ,算法 的 复杂 度 基本 上 是 语句 长 度 的 二 次 方 ， 而 对 于 上 
下 文 有 关 文 法 ,计算 复杂 度 基本 上 是 语句 长 度 的 六 次 方 。 也 就 是 说 , 长 
度 同 为 10 的 程序 语言 的 语句 和 自然 语言 的 语句 ， 计 算 机 对 它们 进行 语法 
分 析 的 计算 量 ， 后 者 是 前 者 的 一 万 倍 。 而 且 随 着 句子 长 度 的 增长 ， 二 者 
计算 时 间 的 差异 会 以 非常 快 的 速度 扩大 。 即 使 今天 ,有 了 很 快 的 计算 机 ( 英 
特 尔 i5 双核 处 理 器 ) ， 分 析 上 面 这 个 二 三 十 个 词 的 句子 也 需要 几 分 钟 的 
时 间 。 因 此 ， 在 20 世纪 70 年 代 ， 即 使 是 制造 大 型 机 的 IBM 公司 ， 也 不 
可 能 采用 规则 的 方法 分 析 一 些 真实 的 语句 。 


2 从 规则 到 统计 


在 20 世纪 70 年 代 ， 基 于 规则 的 句法 分 析 很 快 就 走 到 了 尽头 。 而 对 于 
语义 的 处 理 则 过 到 了 更 大 的 麻烦 。 首 先 ， 自 然 语言 中 词 的 多 义 性 很 难 
用 规则 来 描述 ， 而 是 严重 依赖 于 上 下 文 ， 甚 至 是 “世界 的 知识 ( World 
Knowledge ) ”或 者 常识 。1966 年 ， 著 名 人 工 智 能 专家 明 斯 基 ( 上 面 提 
到 的 达 特 茅 斯 会 议 的 发 起 者 之 一 ) 举 了 一 个 简单 的 反例 ， 说 明 计算 机 处 
理 语言 的 难处 ，“The pen is in the box.” 和 “The box is in the pen.” 中 
两 个 pen 的 区 别 。 第 一 句 话 很 好 理解 ， 学 过 半年 英语 的 学 生 都 懂 。 但 是 
第 二 句 话 则 会 让 外 国人 很 困惑 ， 为 什么 盒子 可 以 装 到 钢笔 里 ? 其实， 第 
二 句 话 对 于 英语 是 母语 的 人 来 讲 很 简单 ， 因 为 这 里 pen 是 围栏 的 意思 。 
整 句 话 翻 译 成 中 文 就 是 “盒子 在 围栏 里 ”。 这 里 面 pen 是 指 钢笔 还 是 围 
栏 ， 通 过 上 下 文 已 经 不 能 解决 ， 需 要 常识 ， 具 体 来 说 就 是 “钢笔 可 以 放 
到 盒子 里 ， 但 是 盒子 比 钢笔 大 ， 所 以 不 能 放 到 钢笔 里 ”。 这 是 一 个 很 简 
单 的 例子 ， 但 是 非常 明白 地 说 明了 当时 自然 语言 处 理 研究 方法 上 存在 的 
问题 。1966 年 的 明 斯 基 已 经 不 是 十 年 前 那个 默默 无 名 的 年 轻 人 了 ， 而 是 
当时 世界 上 数一数二 的 人 工 智能 专家 。 他 的 意见 对 美国 政府 的 科技 决策 
部 门 产 生 了 重大 影响 ， 自 然 科学 基金 会 等 部 门 对 传统 的 自然 语言 处 理 研 
究 非常 失望 , 以 至 于 在 较 长 时 间 里 对 这 方面 的 研究 资助 大 大 减少 。 可 以 说 ， 
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利用 计算 机 处 理 自然 语言 的 努力 直到 20 世纪 70 年 代 初 是 相当 失败 的 。 


1970 年 以 后 统计 语言 学 的 出 现 使 得 自然 语言 处 理 重 获 新 生 ， 并 取得 了 今 
天 的 非凡 成 就 。 推 动 这 个 技术 路 线 转变 的 关键 人 物 是 弗 里 德里 克 . 页 里 尼 
克 ( Frederick Jelinek ) 和 他 领导 的 IBM 华 生 实验 室 ( T. ]. Watson )。 最 初 ， 
他 们 也 没有 想 解决 整个 自然 语言 处 理 的 各 种 问题 ， 而 只 是 希望 解决 语音 
识别 的 问题 。 采 用 基于 统计 的 方法 ，IBM 将 当时 的 语音 识别 率 从 70% 提 
升 到 90%， 同 时 语音 识别 的 规模 从 几 百 单词 上 升 到 几 万 单词 ， 这 样 就 使 
得 语音 识别 有 可 能 从 实验 室 走向 实际 应 用 。 关 于 这 段 历史 ， 后 面 在 页 里 
尼克 的 故事 里 会 介绍 。 


IBM 华 生 实验 室 的 方法 和 成 就 对 自然 语言 处 理 界 的 震动 是 巨大 的 。 后 来 
成 为 IBM 和 Google 主管 研究 的 副 总 裁 阿尔 弗 雷 德 . 斯 伯 格 特 ( Alfred 
Spector ) 博士 ， 当 时 还 是 卡 内 基 - 梅 隆 大 学 教授 ， 他 2008 年 到 Google 
上 任 后 第 一 次 和 我 单独 面谈 时 ， 聊 起 当年 这 个 转变 的 过 程 。 他 说 ， 当 年 
卡 内 基 - 梅 隆 大 学 已 经 在 传统 的 人 工 智能 领域 走 得 非常 远 了 ， 大 家 过 到 
了 很 多 跨 不 过 去 的 障碍 。 后 来 他 去 IBM 华 生 实验 室 参 观 ， 看 到 那里 依靠 
统计 的 方法 取得 的 巨大 成 绩 ， 连 他 一 个 做 系统 出 身 的 教授 也 能 感受 到 今 
后 在 这 个 领域 研究 方法 一 定 要 变化 。 李 开 复 修 过 他 的 课 , 算是 他 的 学 
生 ， 也 是 卡 内 基 - 梅 隆 大 学 最 早 从 传统 自然 语言 处 理 方法 转 到 基于 统计 
方法 的 人 。 李 开 复 和 洪 小 文 出 色 的 工作 ， 帮 助 他 们 的 论文 导师 拉 杰 : 雷 
迪 ( Raj Reddy ) 获得 了 图 灵 奖 。 


作为 世界 上 两 个 顶尖 公司 的 研究 部 门 第 一 把 手 的 斯 伯 格 特 ， 是 一 位 对 未 
来 研究 方向 判断 力 非常 敏锐 的 人 ， 当 时 看 出 这 一 点 并 不 奇怪 。 但 是 ， 并 
非 所 有 的 研究 者 都 认可 这 个 方向 。 基 于 规则 的 自然 语言 处 理 和 基于 统计 
的 自然 语言 处 理 的 争执 后 来 还 持续 了 15 年 左右 , 直到 20 世纪 90 年 代 初 s 
这 期 间 ， 两 路 人 马 各 自 组 织 和 召开 自己 的 会 议 。 如 果 在 共同 的 会 议 上 ， 则 
在 各 自 的 分 会 场 开 小 会 。 到 90 年 代 以 后 ， 坚 持 前 一 种 方法 的 研究 人 员 越 
来 越 少 , 参 会 人 数 自然 也 越 来 越 少 ; 而 后 者 却 越 来 越 多 。 这 样 ， 自 然 语言 


24 咱 数学 之 美 


6 

P Brown,) Cocke,5 
Della Pietra, V Della 
Pietra, F. Jelinek, R, 
Mercer, P Roossin, A 
statistical approach 
to language tran- 
slation, Proceedings 
of the 12th con- 
ference on Com- 
putational Lin- 
Buistics, P 71-76, 
August 22-27,1988, 


7 
世界 上 迄今 为 止 最 
成 功 的 对 冲 基 金 ， 
由 著名 微分 几何 
数学 家 、 陈 省 身 - 
赛 蒙 斯 定理 的 发 
明 人 赛 查 斯 (Jim 
Simons ) 创立 。 彼 
得 布朗 任 IT 部 门 
第 一 主管 。 


处 理 从 规则 到 统计 的 过 渡 就 完成 了 。15 年 ， 对 于 一 个 学 者 来 讲 是 一 段 非 
常 长 的 时 间 ， 如 果 哪 个 人 从 做 博士 开始 就 选 错 了 方向 并 且 坚 持 错误 ， 到 
15 年 后 发 现时 ， 基 本 上 这 一 辈子 可 能 就 一 事 无 成 了 。 


那么 为 什么 这 场 争 议 持续 了 15 年 呢 ? 首先 ， 一 种 新 的 研究 方法 的 成 熟 需 
要 很 多 年 。 上 个 世纪 70 年 代 ， 基 于 统计 的 方法 的 核心 模型 是 通信 系统 加 
隐 含 马尔 可 夫 模型 。 这 一 点 在 后 面 章节 会 详细 介绍 。 这 个 系统 的 输入 和 
输出 都 是 一 维 的 符号 序列 ,而 且 保 持原 有 的 次 序 。 最 早 获得 成 功 的 语音 识 
别 是 如 此 , 接 下 来 第 二 个 获得 成 功 的 词性 分 析 也 是 如 此 。 而 在 句法 分 析 中 , 
输入 的 是 一 维 的 句子 ， 而 输出 的 是 二 维 的 分 析 树 ;在 机 器 翻译 中 ， 虽 
然 输出 的 依然 是 一 维 的 句子 〈 另 一 种 语言 的 ) ， 但 是 次 序 会 有 很 大 的 变 
化 ， 所 以 上 述 的 方法 就 不 太 管用 了 。1988 年 ，IBM 的 彼得 … 布朗 ( Peter 
Brown ) 等 人 提出 了 基于 统计 的 机 器 翻译 方法 “， 框 架 是 对 的 ， 但 是 效果 
很 差 , 因为 当时 既 没 有 足够 的 统计 数据 ,也 没有 足够 强大 的 模型 来 解决 不 
同 语言 语序 颠倒 的 问题 。 这 样 在 上 个 世纪 整个 80 年 代 ， 除 了 布朗 等 人 写 
了 这 篇 论文 ， 没 有 类 似 的 机 器 翻译 的 工作 有 效 展开 ， 而 布朗 等 人 也 去 文 
艺 复兴 技术 公司 ” 发 财 了 。 句 法 分 析 的 问题 就 更 加 复杂 ， 因 为 一 个 语法 成 
分 对 另 一 个 语法 成 分 的 修饰 关系 可 以 不 是 顺序 的 ， 而 是 中 间 间 隔 了 很 多 
短语 的 。 只 有 出 现 了 基于 有 向 图 的 统计 模型 才能 很 好 地 解决 复杂 的 句法 
分 析 。 在 很 长 一 段 时 间 里 ， 传 统 方法 的 捍卫 者 攻击 对 方 的 武器 就 是 ， 基 
于 统计 的 方法 只 能 处 理 浅 层 的 自然 语言 处 理 问题 ， 而 无 法 进入 深层 次 的 
研究 。 


过 去 的 25 年 里 ， 随 着 计算 能 力 的 提高 和 数据 量 的 不 断 增加 ,过 去 看 似 不 
可 能 通过 统计 模型 完成 的 任务 ， 渐 渐 都 变 得 可 能 了 ， 包 括 很 复杂 的 句法 
分 析 。 到 了 上 个 世纪 90 年 代 末 期 ， 大 家 发 现 通过 统计 得 到 的 句法 规则 其 
至 比 语言 学 家 总 结 的 更 有 说 服 力 。2005 年 后 ， 随 着 Google 基于 统计 方 
法 的 翻译 系统 全 面 超过 基于 规则 方法 的 SysTran 翻译 系统 ,基于 规则 方 
法 固守 的 最 后 一 个 堡垒 被 拔 掉 了 。 这 才 使 得 我 们 在 这 本 书 里 ， 可 以 用 数 
学 的 方法 ， 而 且 只 需要 用 数学 的 方法 给 出 我 们 今天 所 有 自然 语言 处 理 相 
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关 问 题 的 全 部 答案 。 


第 二 点 ， 也 很 有 意思 ， 基 于 统计 的 方法 代替 传统 的 方法 ,需要 等 原 有 的 
一 批语 言 学 家 退休 。 这 在 科学 史上 也 是 经 常 发 生 的 事 。 钱 钟 书 在 《围城 》 
中 讲 ， 老 科学 家 可 以 理解 成 “ 老 的 科学 家 ”或 者 “ 老 科 学 的 家 ”两 种 。 
如 果 是 后 者 ， 他 们 年 纪 不 算 老 , 但 是 已 经 落伍 ， 大 家 必须 耐心 等 他 们 退 
休 让 出 位 子 。 毕竟, 不 是 所 有 人 都 乐意 改变 自己 的 观点 , 无 论 对 错 。 当 然 ， 
等 这 批 人 退休 之 后 ， 科 学 就 会 以 更 快 的 速度 发 展 。 因 此 ， 我 常 想 ， 我 自 
已 一定 要 在 还 不 太 糊 涂 和 固执 时 就 退休 。 


图 2.4 唉 ， 经 费 又 给 那些 “ 老 科 学 家 ” 拿 走 了 


在 科学 家 的 新 老 交替 上 , 除了 贾 里 尼克 直接 领导 的 IBM- 约翰 ' 霍 普 金 斯 系 
统 (包括 我 本 人 ) ,米奇 * 马 库 斯 ( Mitch Marcus ) 领导 的 宾夕法尼亚 大 
学 也 起 了 很 大 的 作用 。 马 库 斯 设法 获得 了 美国 自然 科学 基金 会 的 支持 ， 设 
立 和 领导 了 LDC 项 目 ， 采 集 和 整理 全 世界 主要 语言 的 语 料 ， 并 且 培 养 了 
一 批 世界 级 的 科学 家 ， 让 他 们 到 世界 主要 的 一 流 实验 室 里 挑大梁 。 这 前 后 
两 拨 人 形成 了 一 个 事实 上 的 学 派 ， 占 据 了 全 世界 自然 语言 处 理学 术 界 的 主 
要 位 置 。 


同时 ， 自 然 语 言 处 理 的 应 用 在 过 去 25 年 里 也 发 生 了 巨大 的 变化 。 比 如 对 
自动 问答 的 需求 很 大 程度 上 被 网 页 搜索 和 数据 挖掘 替代 了 。 而 新 的 应 用 越 


来 越 依靠 数据 的 作用 和 浅 层 的 自然 语言 处 理 的 工作 ， 这 就 在 客观 上 大 大 加 
和 


26 川 数学 之 美 


速 了 自然 语言 处 理 研究 从 基于 规则 的 方法 到 基于 统计 的 方法 的 转变 。 


今天 ,几乎 不 再 有 科学 家 宣称 自己 是 传统 的 基于 规则 方法 的 捍卫 者 。 而 
自然 语言 处 理 的 研究 也 从 单纯 的 句法 分 析 和 语义 理解 ， 变 成 了 非常 贴近 
应 用 的 机 器 翻译 、 语 音 识别 、 文 本 到 数据 库 自动 生成 、 数 据 挖掘 和 知识 
的 获取 等 等 。 


3 小 结 


基于 统计 的 自然 语言 处 理 方法 ， 在 数学 模型 上 和 通信 和 是 相通 的 ， 甚 至 就 
是 相同 的 。 因 此 ， 在 数学 意义 上 自然 语言 处 理 又 和 语言 的 初衷 一 通信 
联系 在 一 起 了 。 但 是 ， 科 学 家 们 认识 到 这 个 联系 却 花 了 几 十 年 的 时 间 。 


第 3 章 统计 语言 模型 


我 们 在 前 面 的 章节 一 直 强 调 ， 自 然 语言 从 它 产生 开始 ， 逐 渐 演 变 成 一 种 
上 下 文 相 关 的 信息 表达 和 传递 的 方式 ， 因 此 让 计算 机 处 理 自然 语言 ， 一 
个 基本 的 问题 就 是 为 自然 语言 这 种 上 下 文 相关 的 特性 建立 数学 模型 。 这 
个 数学 模型 就 是 在 自然 语言 处 理 中 常 说 的 统计 语言 模型 ( Statistical 
Language Model ) ， 它 是 今天 所 有 自然 语言 处 理 的 基础 ， 并 且 广 泛 应 用 
于 机 器 翻译 、 语 音 识别 、 印 刷 体 或 手写 体 识别 、 拼 写 纠 错 、 汉 字 输 入 和 
文献 查询 。 


1 用 数学 的 方法 描述 语言 规律 


统计 语言 模型 产生 的 初衷 是 为 了 解决 语音 识别 问题 。 在 语音 识别 中 ， 计 
算 机 需要 知道 一 个 文字 序列 是 否 能 构成 一 个 大 家 理解 而 且 有 意义 的 句 
子 ， 然 后 显示 或 者 打印 给 使 用 者 。 


比如 在 上 一 章 的 例子 中 : 


美联储 主席 本 ， 伯 南 克 昨 天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 借 给 上 百 家 银 行 , 保 
险 公 司 和 汽车 公司 。 


这 句 话 就 很 通顺 ， 意 思 也 很 明白 。 
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如 果 改 变 一 些 词 的 顺序 ， 或 者 替换 掉 一 些 词 ， 将 这 句 话 变 成 : 


本 伯 南 克 美 联储 主席 昨天 7 000 亿美 元 的 救助 资金 告诉 媒体 将 借 给 银行 、 保 险 公司 
和 汽车 公司 上 百 家 。 


意思 就 含混 了 ， 虽 然 多 少 还 能 猜 到 一 点 。 
但 是 如 果 再 换 成 : 


联 主 美 储 席 本 伯 诉 体 南 将 借 天 的 救 克 告 媒 昨 助 资金 70 元 亿 00 美 给 上 百 百 百 家 银 保 
行 、 汽 车 险 公 司 公司 和 。 


基本 上 读者 就 不 知 所 云 了 。 


如 果 问 一 个 没有 学 过 自然 语言 处 理 的 人 为 什么 会 变 成 这 样 , 他 可 能 会 说 ， 
第 一 个 句子 合乎 语法 ， 词 义 清 晰 。 第 二 个 句子 不 合乎 语法 ， 但 是 词义 还 
清晰 。 第 三 个 连词 义 都 不 清晰 了 。20 世纪 70 年 代 以 前 ， 科 学 家 们 也 是 
这 样 想 的 ， 试 图 判断 这 个 文字 序列 是 否 合乎 文法 、 含 义 是 否 正确 等 。 
正如 我 们 上 节 所 讲 ， 这 条 路 走 不 通 。 而 贾 里 尼克 从 另外 一 个 角度 来 看 待 
这 个 问题 ， 用 一 个 简单 的 统计 模型 非常 漂亮 地 搞定 了 它 。 


贾 里 尼克 的 出 发 点 很 简单 : 一 个 句子 是 否 合理 ,就 看 看 它 的 可 能 性 大 小 如 
何 。 至 于 可 能 性 就 用 概率 来 衡量 。 第 一 个 句子 出 现 的 概率 大 致 是 10”， 

第 二 个 句子 出 现 的 概率 是 10” 次 方 ， 第 三 个 句子 出 现 的 概率 是 10 了。 

因此 ， 第 一 个 最 有 可 能 ， 它 的 可 能 是 第 二 个 句子 的 10 万 倍 ， 是 第 三 个 
句子 的 一 百 亿 亿 亿 亿 亿 亿 倍 。 这 个 方法 更 普通 而 严格 的 描述 是 : 


假定 8 表示 某 一 个 有 意义 的 句子 ， 由 一 连 串 特 定 顺序 排列 的 词 
wu wz …,wn 组 成 ， 这 里 mn 是 句子 的 长 度 。 现 在 ， 我 们 想 知道 3 在 文本 中 
出 现 的 可 能 性 ， 也 就 是 数学 上 所 说 的 5 的 概率 P(S) 。 当 然 ， 可 以 把 人 类 
有 史 以 来 讲 过 的 话 统计 一 下 ， 同 时 不 要 忘记 统计 进化 了 几 百 年 上 千年 间 
可 能 讲 过 的 话 ， 就 知道 这 句 话 可 能 出 现 的 概率 了 。 这 种 方法 恐怕 连 傻子 
都 知道 行 不 通 。 因 此 ,需要 有 个 模型 来 估算 它 。 既 然 5 = wi, wz,…,wn， 那 
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么 不 妨 把 P(S) 展 开 表示 : 
P(S) = P(wi, wz,..., wn) (3.1) 


利用 条 件 概率 的 公式 ，S 这 个 序列 出 现 的 概率 等 于 每 一 个 词 出 现 的 条 件 
概率 相 乘 ， 于 是 P(wi,w2,…,wn) 可 展开 为 : 


P(wi, wa2,.., Wn) 


= P(wi)* Pwzlwi)* PCwalwi, wz)……P(wnlwu Wa Wn-1) (3.2) 


其 中 P(w) 表 示 第 一 个 词 w 出 现 的 概率 '; P(w2lwi) 是 在 已 知 第 一 个 词 
的 前 提 下 ,第 二 个 词 出 现 的 概率 ; 以 此 类 推 。 不 难看 出 ， 到 了 词 wn， 
它 的 出 现 概率 取决 于 它 前 面 的 所 有 词 。 


从 计算 上 来 看 ， 第 一 个 词 的 条 件 概率 P(w,) 很 容易 算 ， 第 二 个 词 的 条 件 
概率 P(w?|w,) 也 还 不 太 麻烦 ， 第 三 个 词 的 条 件 概率 P(wslwu wz) 已 经 非 
常 难 算 了 ， 因 为 它 涉及 到 三 个 变量 w wz, ws ， 每 个 变量 的 可 能 性 都 是 一 
种 语言 字典 的 大 小 。 到 了 最 后 一 个 词 ww， 条 件 概率 P(wnjwi,w2,…, wn-1) 
的 可 能 性 太 多 ， 无 法 估算 。 怎 么 办 ? 


19 世纪 到 20 世纪 初 ， 俄 罗斯 有 个 数学 家 叫 马 尔 可 夫 ( Andrey Mar- 
kov ) ， 他 给 了 个 偷懒 但 还 颇 为 有 效 的 方法 ， 也 就 是 每 当 遇 到 这 种 情况 
时 ， 就 假设 任意 一 个 词 wi 出 现 的 概率 只 同 它 前 面 的 词 w-: 有关， 于 是 
问题 就 变 得 很 简单 了 。 这 种 假设 在 数学 上 称 为 马尔 可 夫 假 设 *。 现 在 ，S 
出 现 的 概率 就 变 得 简单 了 : 


P(S) 
= P(wD .PC(wzlwa) PCwslwz)…PCwilwi-D…PC(wnlwn-D) (3.3) 


公式 ( 3.3 ) 对 应 的 统计 语言 模型 是 二 元 模型 ( Bigram Model ) s 顺便 
提 一 句 ， 和 语言 模型 相关 的 很 多 名 词 的 中 文 翻译 ， 最 早 是 我 20 多 年 前 
提出 的 , 依然 沿用 至 今 。Bigram Model 当初 我 译 为 二 元 文法 模型 ， 
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1 
当然 更 准确 的 描述 是 
Pow1<s >)， 即 这 个 
词 在 句子 开头 <*> 
条 件 下 的 概率 。 


2 
马尔 可 夫 在 906 年 
首先 做 出 了 这 类 过 
程 。 而 将 此 一 般 化 
到 可 数 无 限 状 态 空间 
是 由 柯 尔 莫 果 洛 夫 在 
1936 年 给 出 的 。 
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现在 我 觉得 直接 叫 二 元 模型 更 准确 。 当 然 ， 也 可 以 假设 一 个 词 由 前 面 
NN 一 1 个 词 决 定 ， 对 应 的 模型 稍微 复杂 些 ， 被 称 为 N 元 模型 。 我 们 会 在 
下 一 节 中 介绍 。 


接 下 来 的 问题 就 是 如 何 估 计 条 件 概率 P(wilw,-,) 。 根 据 它 的 定义 : 


P(wi-1wi) 
P(wi-1) 


P(wilwi-1) = (3.4) 


而 估计 联合 概率 P(wi-1,wi) 和 边缘 概率 P(wi-1) ,现在 变 得 很 简单 。 因 为 
有 了 大 量 机 读 文 本 ， 也 就 是 专业 人 士 讲 的 语料库 ( Corpus ) ， 只 要 数 一 
数 wi-1,wi 这 对 词 在 统计 的 文本 中 前 后 相 邻 出 现 了 多 少 次 #(wi-1,wi) ， 以 
及 wi-! 本 身 在 同样 的 文本 中 出 现 了 多 少 次 #(wi-1) ， 然 后 用 两 个 数 分 别 
除 以 语料库 的 大 小 #， 即 可 得 到 这 些 词 或 者 二 元 组 的 相对 频 度 : 


#(wi-1wi) 


f (wi-1wi) = 《3 
f(wi-1) = sn (3.6) 
根据 大 数 定理 ， 只 要 统计 量 足够 ， 相 对 频 度 就 等 于 概率 ， 即 
PCw_uvwD ~ | (3.7) 
P(wi-) = (3.8) 


而 P(wilwi-1) 就 是 这 两 个 数 的 比值 ， 再 考虑 到 上 面 的 两 个 概率 有 相同 的 
分 母 ， 可 以 约 掉 ， 因 此 


#(wi-LwD 


病 i 
(wilwii) = NW) 


(3.9) 


现在 ,读者 也 许 已 经 开始 能 感受 到 数学 的 美妙 之 处 了 ， 它 把 一 些 复杂 的 
问题 变 得 如 此 的 简单 。 这 似乎 有 点 让 人 难以 置信 ， 用 这 么 简单 的 数学 模 
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型 能 解决 复杂 的 语音 识别 、 机 器 翻译 等 问题 ， 而 用 很 复杂 的 文法 规则 和 
人 工 智能 却 做 不 到 。 其 实 不 光 是 普通 人 ， 就 连 很 多 语言 学 家 都 曾 质疑 过 
这 种 方法 的 有 效 性 ， 但 事实 证 明 ， 统 计 语 言 模型 比 任何 已 知 的 借助 某 种 
规则 的 解决 方法 更 有 效 。 我 们 不 妨 看 两 个 真实 的 例子 。 


在 Google 语音 搜索 Google Voice 和 中 英文 自动 翻译 ( 罗 塞 塔 ) 中 , 发 
挥 了 最 重要 作用 的 就 是 这 个 统计 语言 模型 。 美 国标 准 局 (NIST ) 
从 2001 年 起 对 所 有 的 机 器 翻译 系统 进行 了 评测 ，Google 的 罗 塞 塔 
(Rosetta ) 系统 ( 大 家 应 该 知道 它 为 什么 起 这 个 名 字 ) 2007 年 第 一 
次 参加 NIST 的 评测 ， 这 个 仅仅 开发 了 两 年 的 系统 便 一 鸣 惊 人 地 夺 得 
第 一 ， 而 且 评测 分 数 高 出 所 有 基于 规则 的 系统 很 多 很 多 ， 要 知道 后 者 
开发 了 十 几 年 。 这 里 面 的 秘密 武器 就 是 一 个 比 其 他 竞争 对 手 大 上 百倍 
的 语言 模型 。 


在 IBM 提出 统计 语言 模型 十 几 年 后 的 20 世纪 80 年 代 末 ， 还 在 卡 内 基 - 
梅 隆 大 学 做 博士 生 的 李开复 用 统计 语言 模型 把 997 个 词 的 语音 识别 问题 
简化 成 了 一 个 相当 于 20 个 词 的 识别 问题 ,实现 了 有 史 以 来 第 一 次 大 词 
汇 量 非 特定 人 连续 语音 的 识别 。 


当然 , 真正 实现 一 个 好 的 统计 语言 模型 , 还 有 许多 细节 问题 需要 解决 ， 
比如 ， 如 果 上 面 公式 中 的 这 对 词 (wi-1,wi) 在 语料库 中 没 出 现 ， 或 只 出 现 
一 两 次 ， 估 算 它 的 概率 就 有 点 棘手 了 。 贾 里 尼克 及 其 同事 的 贡献 不 仅 在 
于 提出 了 统计 语言 模型 ， 而 且 还 很 漂亮 地 解决 了 所 有 的 细节 问题 。 这 些 
我 们 将 在 下 一 节 中 介绍 。 一 般 的 读者 如 果 并 不 需要 在 工作 中 使 用 统计 语 
言 模型 ， 也 不 想 关心 数学 味道 太 浓 的 细节 ， 阅 读 可 以 到 此 打住 了 ， 因 为 
统计 语言 模型 的 基本 原理 已 经 介绍 完了 。 数 学 的 精彩 之 处 就 在 于 简单 的 
模型 可 以 干 大事 。 


指 N 元 组 的 数量 。 
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2 ”延伸 阅读 : 统计 语言 模型 的 工程 诀窍 


读者 知识 背景 : 概率 论 和 数理 统计 。 


这 本 书 的 大 多 数 章节 都 会 有 延伸 阅读 部 分 ， 主 要 写 给 专业 读者 和 有 兴趣 
学 习 这 里 面 的 数学 原理 的 人 ， 但 是 这 些 内 容 未 必 适 合 所 有 的 读者 。 为 了 
节省 大 家 的 时 间 ， 延 伸 阅读 部 分 会 标示 出 对 读者 背景 知识 的 要 求 ， 大 家 
可 以 自行 决定 是 否 跳 过 这 部 分 内 容 。 


2.1 高 阶 语言 模型 


上 一 节 中 公式 (3.3 ) 模型 的 假设 前 提 是 ， 句 子 中 的 每 个 词 只 和 前 面 一 
个 词 有 关 ， 而 和 更 前 面 的 词 就 无 关 了 ， 这 似乎 太 简化 了 ， 或 者 说 近似 得 
过 头 了 。 确 实 是 这 样 ， 读 者 很 容易 找到 一 些 例子 : 某 个 词 和 前 面 第 二 个 
词 有 关 ， 比 如 说 “美丽 的 花 朱 ”， 花 朱 其 实 和 美丽 有 关 。 因 此 ， 更 普遍 
的 假设 是 某 个 词 和 前 面 若干 个 词 有 关 。 


假定 文本 中 的 每 个 词 w 和 前 面 N - 1 个 词 有 关 ， 而 与 更 前 面 的 词 无 关 ， 这 
样 当 前 词 w 的 概率 只 取决 于 前 面 N 一 1 个 词 P(wi-w+u wi-w+z ,wii 。 
因此 ， 


PCwilwu wa wii = PCwilw-wrbwrwtz wiiD (3.10) 


公式 ( 3.10 ) 的 这 种 假设 被 称 为 N 一 1 阶 马尔 可 夫 假 设 ， 对 应 的 语言 模 
型 称 为 N 元 模型 (N-Gram Model ) 。N = 2 的 二 元 模型 就 是 公式 ( 3.3 ) ， 
而 N = 1 的 一 元 模型 实际 上 是 一 个 上 下 文 无 关 的 模型 ， 也 就 是 假定 当前 
词 出 现 的 概率 与 前 面 的 词 无 关 。 而 在 实际 应 用 中 最 多 的 是 N = 3 的 三 元 
模型 ， 更 高 阶 的 模型 就 很 少 使 用 了 。 


为 什么 N 一 般 取 值 都 这 么 小 呢 ? 这 里 面 主要 有 两 个 原因 。 首先 ，N 元 模 
型 的 大 小 ( 或 者 说 空间 复杂 度 ) 几乎 是 NN 的 指数 函数 ， 即 O(IV 必 ) ， 这 里 
IVI 是 一 种 语言 词典 的 词汇 量 ， 一般 在 几 万 到 几 十 万 个 。 而 使 用 NN 元 模型 
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的 速度 ( 或 者 说 时 间 复杂 度 ) 也 几乎 是 一 个 指数 函数 , 即 O(IVI"-5。 因此 ， 
NN 不 能 很 大 。 当 NN 从 1 到 2， 再 从 2 到 3 时 ,模型 的 效果 上 升 显著 。 而 
当 模 型 从 3 到 4 时， 效果 的 提升 就 不 是 很 显著 了 ， 而 资源 的 耗费 增加 却 
非常 快 ， 所 以 ， 除 非 是 不 惜 资源 为 了 做 到 极致 ， 很 少 有 人 使 用 四 元 以 上 
的 模型 。Google 的 罗 塞 塔 翻译 系统 和 语言 搜索 系统 , 使 用 的 是 四 元 模型 ， 
该 模型 存储 于 500 台 以 上 的 Google 服务 器 中 。 


最 后 还 有 一 个 问题 ， 是 否 三 元 或 者 四 元 甚至 更 高 阶 的 模型 就 能 覆盖 所 有 
的 语言 现象 呢 ? 答案 显然 是 否定 的 。 因 为 自然 语言 中 ， 上 下 文 之 间 的 相 
关 性 可 能 跨度 非常 大 ， 甚 至 可 以 从 一 个 段落 跨 到 另 一 个 段落 。 因 此 ， 即 
使 模型 的 阶 数 再 提高 ， 对 这 种 情况 也 无 可 奈何 ， 这 就 是 马尔 可 夫 假 
设 的 局 限 性 ， 这 时 就 要 采用 其 他 一 些 长 程 的 依赖 性 ( Long Distance 
Dependency ) 来 解决 这 个 问题 了 ， 在 以 后 的 章节 还 会 有 介绍 。 


2.2 ”模型 的 训练 、 零 概率 问题 和 平滑 方法 


使 用 语言 模型 需要 知道 模型 中 所 有 的 条 件 概 率 , 我 们 称 之 为 模型 的 参数 。 
通过 对 语 料 的 统计 ， 得 到 这 些 参 数 的 过 程 称 作 模型 的 训练 。 在 前 一 节 中 
提 到 的 模型 训练 方法 ， 似 乎 非常 简单 。 比 如 对 于 二 元 模型 ( 3.3 ) ， 就 是 
拿 两 个 数字 ，(wi-1,wi) 在 语 料 中 同 现 的 次 数 #(wi-1,wi) 和 (wi-1) 在 语 料 
中 单独 出 现 的 次 数 #(wi-1)， 计 算 一 下 比值 即 可 。 但 问题 是 ， 如 果 同 现 的 
次 数 #(wi-1,wi) = 0 怎么 办 ， 是 否 意味 着 条 件 概率 P(wilwi-1) = 0? 反 过 
来 如 果 #(wi-1,wi) 和 #(wi-D 都 只 出 现 了 一 次 ， 是 否 敢 得 出 P(wilwi-1) = 1 
这 样 非常 绝对 的 结论 ? 这 就 涉及 到 统计 的 可 靠 性 问题 了 。 


在 数理 统计 中 ,我 们 之 所 以 敢于 用 对 采样 数据 的 观察 结果 来 预测 概率 , 是 
因为 有 大 数 定理 ( Law of Large Numbers ) 在 背后 做 支持 ， 它 的 要 求 是 
有 足够 的 观测 值 。 例 如 ， 在 某 镇 中 心 的 楼 上 ， 看 到 楼 下 店 熙 扩 扩 的 人 群 
中 有 550 个 男性 ，520 个 女性 ， 我 们 大 致 可 以 认为 这 个 地 方 男性 出 现 的 
概率 是 550 / (550 + 520 ) = 51.4%， 而 女性 出 现 的 概率 为 520 (550 
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4 
以 Google IME 为 参 
考 。 


+ 520 ) = 48.6%。 但 是 ， 如 果 是 一 大 早 ， 我 们 从 楼 上 看 下 去 ,只 有 5 个 
人 ,4 个 女性 1 个 男性 ， 我 们 是 否 敢 说 ， 女 性 出 现 的 概率 为 80%， 而 男 
性 只 有 20% 呢 ? 显然 不 敢 , 因为 这 5 个 人 出 现 的 情况 有 非常 大 的 随机 性 。 
也 许 第 二 天 清晨 ,楼 下 只 有 3 个 人 且 全 是 男性 ， 我 们 同样 不 敢 得 到 女性 
不 会 出 现在 这 里 的 预测 。 


这 是 生活 中 的 常识 。 但 是 在 估计 语言 模型 的 概率 时 ， 很 多 人 恰恰 忘 了 这 
个 道理 ， 因 此 训练 出 来 的 语言 模型 “不 管用 ”， 然 后 回 过 头 来 怀疑 这 个 
方法 是 否 有 效 。 其 实 这 个 方法 屡 试 不 严 ， 今 天 的 数字 通信 很 大 程度 就 建 
立 在 这 个 基础 上 ， 只 是 如 何 使 用 的 问题 而 已 。 那 么 如 何 正确 地 训练 一 个 
语言 模型 呢 ? 


一 个 直接 的 办 法 就 是 增加 数据 量 ， 但 是 即使 如 此 ， 依 然 会 遇 到 零 概率 或 
者 统计 量 不 足 的 问题 。 假 定 要 训练 一 个 汉语 的 语言 模型 ， 汉 语 的 词汇 量 
大 致 是 20 万 这 个 量 级 4， 训练 一 个 三 元 模型 就 有 2000002= 8 x 10” 个 
不 同 的 参数 。 假 如 从 互联 网 上 刨 去 垃圾 数据 ， 有 100 亿 个 有 意义 的 中 文 
网 页 ， 这 已 经 是 相当 高 估 的 数据 ， 每 个 网 页 平均 1000 词 。 那 么 ， 即 使 
将 互联 网 上 全 部 的 中 文 内 容 都 用 作 训练 ， 依 然 只 有 10”， 因 此 ， 如 果 用 
直接 的 比值 计算 概率 ， 大 部 分 条 件 概率 依然 是 零 ， 这 种 模型 我 们 称 之 为 
“不 平滑 ”。 在 实际 应 用 中 , 统计 语言 模型 的 零 概率 问题 是 无 法 回避 的 ， 
必须 解决 。 


训练 统计 语言 模型 的 艺术 就 在 于 解决 好 统计 样本 不 足 时 的 概率 估计 问 
题 。1953 年 古 德 (I J. Good ) 在 他 老板 图 灵 ( Alan Turing ) ( 就 是 计 
算 机 科学 史上 的 图 灵 ) 的 指导 下 , 提出 了 在 统计 中 相信 可 靠 的 统计 数据 ， 
而 对 不 可 信 的 统计 数据 打折 扣 的 一 种 概率 估计 方法 ， 同 时 将 折扣 出 来 的 
那 一 小 部 分 概率 给 予 未 看 见 的 事件 ( Unseen Events ) 。 古 德 和 图 灵 还 
给 出 了 一 个 很 漂亮 的 重新 估算 概率 的 公式 ， 这 个 公式 后 来 被 称 为 古 德 - 
图 灵 估 计 ( Good-Turing Estimate ) 。 
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古 德 - 图 灵 估 计 的 原理 是 这 样 的 : 对 于 没有 看 见 的 事件 ， 我 们 不 能 认为 
它 发 生 的 概率 就 是 零 , 因此 我 们 从 概率 的 总 量 ( Probability Mass ) 中 ， 
分 配 一 个 很 小 的 比例 给 予 这 些 没 有 看 见 的 事件 ( 图 3.1 ) 。 这 样 一 来 ， 
看 见 的 那些 事件 的 概率 总 和 就 要 小 于 1 了 ， 因此， 需要 将 所 有 看 见 的 事 
件 概率 调 小 一 点 。 至 于 小 多 少 ， 要 根据 “ 越 是 不 可 信 的 统计 折扣 越 多 ” 
的 方法 进行 。 


图 31 从 左 到 右 的 变化 ， 把 一 部 分 看 得 见 的 事件 的 概率 分 布 给 未 看 见 的 事件 
以 统计 词典 中 的 每 个 词 的 概率 为 例 ， 来 说 明 古 德 - 图 灵 估 计 公式 。 


假定 在 语料库 中 出 现 r 次 的 词 有 Mr 个 ， 特 别 地 ， 未 出 现 的 词 数量 为 No。 
语料库 的 大 小 为 N。 那 么 ， 很 显然 

N= BrN, (3.11) 
出 现 r 次 的 词 在 整个 语料库 中 的 相对 频 度 ( Relative Frequency ) 则 是 
r/N， 如 果 不 做 任何 优化 处 理 ， 就 以 这 个 相对 频 度 作为 这 些 词 的 概率 
估计 。 


现在 假定 当 r 比较 小 时 , 它 的 统计 可 能 不 可 靠 , 因此 出 现 r 次 的 那些 词 在 
计算 它们 的 概率 时 要 使 用 一 个 更 小 一 点 的 次 数 , 是 dr ( 而 不 直接 使 用 r ) ， 
古 德 - 图 灵 估 计 按照 下 面 的 公式 计算 dr : 


dr = (7 +D: Nt/Nr (3.12) 


显然 
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Far:N=N (3.13) 


一 般 来 说 ， 出 现 一 次 的 词 的 数量 比 出 现 两 次 的 多 ， 出 现 两 次 的 比 出 现 三 
次 的 多 。 这 种 规律 称 为 Zipf 定律 ( Zipf's Law ) 。 图 3.2 是 一 个 小 语 料 
库 中 ,出现 r 次 的 词 数量 N, 和 r 的 关系 。 


Nr 


0 和 本 r 
13579113 1 1 1 2 23252729 31333537394 43 4547 49 


图 3.2 Zipf 定律 : 出 现 r 次 词 的 数量 N, 和 的 关系 


可 以 看 出 r 越 大 ， 词 的 数量 N; 越 小 ， 即 Ni < Nr-。 因 此 ， 一般 情况 下 
dr<r， 而 do>0 。 这 样 就 给 未 出 现 的 词 赋 予 了 一 个 很 小 的 非 零 值 ， 从 而 
解决 了 零 概率 的 问题 。 同 时 下 调 了 出 现 频率 很 低 的 词 的 概率 。 当 然 ， 在 
实际 的 自然 语言 处 理 中 ， 一 般 对 出 现 次 数 超过 某 个 阔 值 的 词 ， 频 率 不 下 
调 ， 只 对 出 现 次 数 低 于 这 个 阔 值 的 词 ， 频 率 才 下 调 ， 下 调 得 到 的 频率 总 
和 给 未 出 现 的 词 。 


这 样 出 现 r 次 的 词 的 概率 估计 为 dr/N 。 于 是 ， 对 于 频率 超过 一 定 阐 值 
的 词 ， 它 们 的 概率 估计 就 是 它们 在 语料库 中 的 相对 频 度 , 对 于 频率 小 于 
这 个 阔 值 的 词 ， 它 们 的 概率 估计 就 小 于 它们 的 相对 频 度 ,出 现 次 数 越 少 
的 ， 折 扣 越 多 。 对 于 未 看 见 的 词 ， 也 给 予 了 一 个 比较 小 的 概率 。 这 样 所 
有 词 的 概率 估计 都 很 平滑 了 。 
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对 于 二 元 组 (wi-1,wi) 的 条 件 概率 估计 P(wilwi-1) 也 可 以 做 同样 的 处 理 。 

我 们 知道 ， 通 过 前 一 个 词 wi_1 预测 后 一 个 词 w 时 ， 所 有 的 可 能 情况 的 

条 件 概率 总 和 应 该 为 1， 即 
之 P(wllwr-D) =1 


对 于 出 现 次 数 非常 少 的 二 元 组 (wi-1,wi) ， 它 们 的 出 现 次 数 需要 按照 古 德 - 
图 灵 的 方法 打折 扣 ， 这 样 了 P(wilwi-1) < 1， 同 时 意味 着 有 一 部 分 概率 量 


at seem 


没有 分 配 出 去 ， 留 给 了 没有 看 到 的 二 元 组 (wi-1,wi)。 基 于 这 种 思想 ,估计 
二 元 模型 概率 的 公式 如 下 : 


(3.14) 


f (wilwi-1) if #(wi-1,wi) 二 了 
Plwilwi-) = fwilwiss) if 0O<#(wiyw) <T (3.15) 
Q(wi-1) Fw) otherwise 


其 中 7 是 一 个 阐 值 ， 一 般 在 8-10 左右 ， 函 数 万 () 表示 经 过 古 德 - 图 灵 
估计 后 的 相对 频 度 ， 而 


1- BP(wilwi-1) 


Wi Seen 


ZrwD 


We unseen 


QGw-D = (3.16) 
这 样 可 以 保证 等 式 (3.14 ) 成 立 。 


这 种 平滑 的 方法 ， 最 早 由 前 IBM 科学 家 卡 芯 ( S. M. Katz) 提出 ， 故 称 
为 卡 茨 退 避 法 ( Katz backoff ) 。 类 似 地 ， 对 于 三 元 模型 ， 概 率 估计 的 
公式 如 下 : 


P(wilwi-z, wi-1) 


f (wilwi-z, wi-1) if #(Wi-2 Wi Wi) 二 了 
= ] foeCwilWi-z2, wi-1) if 0<#(Wi-zWi-uwi) <T (3.17) 
QWwi-z, wi-1) * P(wilwi-1) otherwise 


对 于 一 般 情况 的 NN 元 模型 概率 估计 公式 .以 此 类 推 。 
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内 伊 (Herman Ney ) 等 人 在 此 基础 上 优化 了 Katz backoff， 原 理 大 同 
小 异 ， 就 不 效 述 了 ， 有 兴趣 的 读者 可 以 读 参考 文献 [3.2] 。 


因为 一 元 组 (wi) 出 现 的 次 数 平均 比 二 元 组 (wi-1,wi) 出 现 的 次 数 要 高 很 
多 ,根据 大 数 定理 ， 它 的 相对 频 度 更 接近 概率 分 布 。 类 似 地 ， 二 元 组 平 
均 出 现 的 次 数 比 三 元 组 要 高 ， 二 元 组 的 相对 频率 比 三 元 组 更 接近 概率 分 
布 。 同 时 ， 低 阶 模型 的 零 概率 问题 也 要 比 高 阶 模型 轻微 点 。 因 此 ,用 
低 阶 语言 模型 和 高 阶 模型 进行 线性 插值 来 达到 平滑 的 目的 ， 也 是 过 
去 行业 使 用 的 一 种 方法 ， 这 种 方法 称 为 删除 差 值 ( Deleted Inter- 
polation ) ， 如 下 面 的 公式 。 该 公式 中 的 三 个 4 均 为 正 数 而 且 和 为 1。 线 
性 插值 的 效果 略 低 于 卡 茨 退 避 法 ( Backoff ) ， 故 现在 已 经 较 少 使 用 了 。 


Plwilwi-z, Wi-1) 
= AWi-2, Wi-3) * f (Wilwi-z, Wi-1) 


+ MGw-D * fF (wilwi-1) + Af (wo) (3.18) 


2.3 ” 语 料 的 选取 问题 


模型 训练 中 另 一 个 重要 的 问题 就 是 训练 数据 ， 或 者 说 语料库 的 选取 。 如 
果 训 练 语 料 和 模型 应 用 的 领域 相 脱节 , 那么 模型 的 效果 通常 要 大 打折 扣 。 


比如 对 于 建立 一 个 语言 模型 ， 如 果 应 用 是 网 页 搜索 ， 它 的 训练 数据 就 应 
该 是 杂乱 的 网 页 数据 和 用 户 输入 的 搜索 串 ， 而 不 是 传统 的 、 规 范 的 新 闻 
稿 ， 即 使 前 者 夹杂 着 噪音 和 错误 。 


这 里 有 一 个 很 好 的 例子 ， 来 自 于 腾讯 搜索 部 门 。 最 早 的 语言 模型 是 使 用 
《人 民 日 报 》 的 语 料 训练 的 ， 因 为 开发 者 认为 这 些 语 料 干净 、 无 噪音 。 
但 是 实际 的 效果 就 比较 差 ， 经 常 出 现 搜索 串 和 网 页 不 匹配 的 例子 5 后 来 
改 用 网 页 的 数据 ， 尽 管 它 们 有 很 多 的 噪音 ， 但 是 因为 训练 数据 和 应 用 一 
致 ， 搜 索 质 量 反而 好 。 


训练 数据 通常 是 越 多 越 好 。 虽 然 通 过 上 节 介绍 的 平滑 过 渡 的 方法 可 以 解 
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决 零 概率 和 很 小 概率 的 问题 但 是 毕竟 在 数据 量 多 的 时 候 概率 模型 的 参 
数 可 以 估计 得 比较 准确 。 高 阶 的 模型 因为 参数 多 ， 需 要 的 训练 数据 也 相 
应 会 多 很 多 。 遗 憾 的 是 ， 并 非 所 有 的 应 用 都 能 得 到 足够 的 训练 数据 ， 比 
如 说 机 器 翻译 的 双语 语 料 就 非常 少 ， 在 这 种 情况 下 片面 追求 高 阶 的 大 模 
型 就 变 得 一 点 意义 也 没有 了 。 


在 训练 数据 和 应 用 数据 一 臻 并 且 训练 量 足 够 大 的 情况 下 ， 训 练 语 料 的 品 
音 高 低 也 会 对 模型 的 效果 产生 一 定 的 影响 ， 因 此 ， 在 训练 以 前 有 时 需 
要 对 训练 数据 进行 预 处 理 。 一 般 情况 下 ， 少 量 的 ( 没有 模式 的 ) 随机 
噪音 清除 起 来 成 本 非常 高 ， 通 常 就 不 做 处 理 了 。 但 是 对 于 能 找到 模式 
( Pattern ) 的 、 量 比较 大 的 噪音 还 是 需要 进行 过 滤 的 ， 而 且 它们 也 比 
较 容易 处 理 ， 比 如 网 页 文本 中 大 量 的 制 表 符 。 因 此 ， 在 成 本 不 高 的 情况 
下 ， 过 滤 训 练 数据 还 是 需要 做 的 。 


3 小 结 


统计 语言 模型 在 形式 上 非常 简单 ， 任 何人 都 很 容易 理解 。 但 是 里 面 的 学 
问 却 可 以 很 深 , 一 个 专家 可 以 在 这 方面 研究 很 多 年 ， 比 如 我 们 在 延伸 阅 
读 中 提 到 的 那些 问题 。 数 学 的 魅力 就 在 于 将 复杂 的 问题 简单 化 。 
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第 4 章 谈 谈 中 文 分 词 


1 中 文 分 词 方法 的 演变 


在 第 3 章 中 我 们 谈 到 可 以 利用 统计 语言 模型 进行 自然 语言 处 理 ， 而 这 些 
语言 模型 是 建立 在 词 的 基础 上 的 ， 因 为 词 是 表达 语义 的 最 小 单位 。 对 于 
西方 拼音 语言 来 讲 ， 词 之 间 有 明确 的 分 界 符 ( Delimit ) ,统计 和 使 用 语 
言 模型 非常 直接 。 而 对 于 中 、 日 、 韩 、 泰 等 语言 ， 词 之 间 没 有 明确 的 分 
界 符 ( 韩语 名 词 短 语 和 动词 之 间 有 分 界 符 , 但 是 短语 内 没有 ) 。 因 此 ， 
首先 需要 对 句子 进行 分 词 ， 才 能 做 进一步 的 自然 语言 处 理 。 


若 分 词 的 输入 是 一 串 胡子 连 着 眉毛 的 汉字 ， 例 如 一 个 句子 : 中 国航 天 官 
员 应 邀 到 美国 与 太空 总 署 官员 开会 。 而 分 词 的 输出 是 用 分 界 符 ， 比 如 用 
斜 线 或 者 竖 线 分 割 的 一 串 词 : 中 国 /航天 / 官员 /应邀 /到 /美国 /与 
/太空 /总 署 / 官员 / 开会 。 


最 容易 想到 的 分 词 方法 ， 也 是 最 简单 的 办 法 ， 就 是 查 字 典 。 这 种 方法 最 早 
是 由 北京 航天 航空 大 学 的 梁 南 元 教授 提出 的 。“ 查 字典 ”的 办 法 ， 其 实 就 
是 把 一 个 句子 从 左 向 右 扫描 一 遍 ， 遇 到 字典 里 有 的 词 就 标识 出 来 , | 遇 
到 复合 词 ( 比如 “上 海 大 学 ” ) 就 找 最 长 的 词 匹配 ， 过 到 不 认识 的 字 串 
就 分 割 成 单字 词 ， 于 是 简单 的 分 词 就 完成 了 。 这 种 简单 的 分 词 方 法 完全 
能 处 理 上 面 例 子 中 的 句子 。 当 我 们 从 左 到 右 扫描 时 , 先 过 到 “中 “这 个 字 ， 
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它 本 身 是 一 个 单字 词 ， 我 们 可 以 在 这 里 做 一 个 切割 ,但 是 ， 当 我 们 再 遇 到 

“ 国 ” 字 时 ,发 现 它 可 以 和 前 面 的 “中 ” 字 组 成 一 个 更 长 的 词 ， 因 此 ,我 
们 就 将 分 割 点 放 在 “中 国 ” 的 后 面 。 接 下 来 ， 我 们 发 现 “中 国 ” 不 会 和 
后 面 的 字 组 成 更 长 的 词 ， 这 个 分 割 点 就 最 终 确定 了 。 


这 个 最 简单 的 方法 可 以 解决 七 八成 以 上 的 分 词 问题 ， 应 该 讲 它 在 复杂 人 性 
(成 本 ) 不 高 的 前 提 下 ,取得 了 还 算 满 意 的 效果 。 但是, 它 毕 况 太 简单 ， 
遇 到 稍微 复杂 一 点 的 问题 就 无 能 为 力 了 。20 世纪 80 年 代 ， 哈尔滨 工业 
大 学 的 王 晓 龙 博士 把 查 字典 的 方法 理论 化 , 发 展 成 最 少 词 数 的 分 词 理论 ， 
即 一 句 话 应 该 分 成 数量 最 少 的 词 串 。 这 种 方法 一 个 明显 的 不 足 是 当 遇 到 
有 二 义 性 (有 双重 理解 意思 ) 的 分 割 时 就 无 能 为 力 了 。 比 如 ， 对 短语 “发 
展 中 国家 ”， 正 确 的 分 割 是 “发 展 - 中 - 国家 ”， 而 从 左 向 右 查 字典 的 
办 法 会 将 它 分 割 成 “发 展 - 中 国 - 家 ”， 显 然 是 错 了 。 另 外 ， 并 非 所 有 
的 最 长 匹配 都 一 定 是 正确 的 。 比 如 “上 海 大 学 城 书店 ”的 正确 分 词 应 该 
是 “上 海 - 大 学 城 - 书店 ”， 而 不 是 “上 海 大 学 - 城 - 书店 ”，“ 北 
京 大 学 生 ” 的 正确 分 词 是 “北京 - 大 学 生 ”， 而 不 是 “北京 大 学 - 生 ”。 


我 们 在 第 一 章 介绍 过 ， 语 言 中 的 歧义 性 伴随 着 语言 的 发 展 ， 困 扰 了 学 者 
们 上 千年 。 在 中 国 古代 ， 断 句 和 说 文 解 字 从 根本 上 讲 ， 就 是 消除 歧义 性 ， 
而 不 同学 者 之 间 的 看 法 也 显然 不 相同 。 各 种 春秋 的 正义 或 者 对 论语 的 注 
释 ， 就 是 各 家 按照 自己 的 理解 消除 歧义 性 。 分 词 的 二 义 性 是 语言 歧义 性 
的 一 部 分 。20 世纪 90 年 代 以 前 ， 海 内 外 不 少 学 者 试图 用 一 些 文法 规则 
来 解决 分 词 的 二 义 性 问题 ， 都 不 是 很 成 功 。 当 然 也 有 一 些 学 者 开始 注意 
到 统计 信息 的 作用 ,但 是 并 没有 找到 有 完善 理论 基础 的 正确 方法 。1990 
年 前 后 ， 当 时 在 清华 大 学 电子 工程 系 工作 的 郭 进 博士 用 统计 语言 模型 成 
功 解决 了 分 词 二 义 性 问题 ， 将 汉语 分 词 的 错误 率 降低 了 一 个 数量 级 。 上 
面 举 的 二 义 性 的 例子 用 统计 语言 模型 都 可 以 解决 。 


郭 进 是 中 国 大 陆 自觉 地 用 统计 语言 模型 方法 进行 自然 语言 处 理 的 第 一 人 ， 
并 且 获 得 了 成 功 。 这 里 面 除 了 他 比较 努力 以 外 ， 他 特殊 的 经 历 也 起 了 很 
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大 作用 。 他 和 我 一 样 ， 虽 然 是 计算 机 专业 的 博士 ， 但 是 却 在 以 通信 为 主 
的 科 系 工 作 ， 他 周围 的 同事 都 是 长 期 从 事 通信 研究 的 ， 可 以 说 是 页 里 尼 
克 的 同行 ， 因 此 ， 他 在 方法 论 上 接受 通信 模型 非常 直接 。 


利用 统计 语言 模型 分 词 的 方法 ， 可 以 用 几 个 数学 公式 简单 概括 如 下 : 假 
定 一 个 句子 S 可 以 有 几 种 分 词 方法 ， 为 了 简单 起 见 ， 假 定 有 以 下 三 种 : 


A1, Az, 434 
Bi B, Ba Bm 


C1 C2, Car" Cn 


其 中 ，A41,42.…B1, B2,…,C1,C2… 等 等 都 是 汉语 的 词 ， 上 述 各 种 分 词 结果 可 
能 产生 不 同 数量 的 词 串 ， 因 为 我 用 了 K,m,n 三 个 不 同 的 下 标 表示 句子 在 
不 同 的 分 词 时 词 的 数目 。 那 么 最 好 的 一 种 分 词 方法 应 该 保证 分 完 词 后 这 
个 句子 出 现 的 概率 最 大 。 也 就 是 说 ， 如 果 41,42,43,…,Ak 是 最 好 的 分 法 ， 
那么 其 概率 满足 


P(A1,Az, A3,…, Ak) > PCBB2，,Bm) 
并 且 
P(A1, hz, Aa,%,Ak) > P(C1, C2,**, Cn) 


因此 ， 只 要 利用 上 一 章 提 到 的 统计 语言 模型 计算 出 每 种 分 词 后 句子 出 现 
的 概率 ， 并 找 出 其 中 概率 最 大 的 ， 就 能 够 找到 最 好 的 分 词 方法 。 


当然 ， 这 里 面 有 一 个 实现 的 技巧 。 如 果 穷 举 所 有 可 能 的 分 词 方法 并 计算 
出 每 种 可 能 性 下 句子 的 概率 ， 那 么 计算 量 是 相当 大 的 。 因 此 ， 可 以 把 它 
看 成 是 一 个 动态 规划 ( Dynamic Programming) 的 问题 ， 并 利用 维特 比 
( Viterbi ) 算 法 快速 地 找到 最 佳 分 词 。( 我 们 在 后 面 的 章节 会 介绍 该 算法 。) 
上 述 过 程 可 以 用 下 图 来 描述 : 
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输入 : 字 串 输出 : 字 串 
和 >| 分词 器 
语言 模型 


4.1 分 词 器 示意 图 


在 郭 进 博士 之 后 ， 海 内 外 不 少 学 者 利用 统计 的 方法 ， 进 一 步 完善 了 中 文 
分 词 。 其 中 值得 一 提 的 是 清华 大 学 孙 茂 松 教授 和 香港 科技 大 学 吴 德 凯 教 
授 的 工作 ( 见 参 考 文献 ) 。 孙 茂松 教授 的 贡献 主要 在 于 解决 没有 词典 的 
情况 下 的 分 词 问题 ， 而 吴 德 凯 教授 是 较 早 将 中 文 分 词 方法 用 于 英文 词组 
的 分 割 ， 并 且 将 英文 词组 和 中 文 词 在 机 器 翻译 时 对 应 起 来 。 


需要 指出 的 是 , 语言 学 家 对 词语 的 定义 不 完全 相同 。 比 如 说 “北京 大 学 ”， 
有 人 认为 是 一 个 词 ， 而 有 人 认为 该 分 成 两 个 词 。 一 个 折 中 的 解决 办 法 是 
在 分 词 的 同时 ， 找 到 复合 词 的 柑 套 结构 。 在 上 面 的 例子 中 ， 如 果 一 句 话 
包含 “北京 大 学 ”四 个 字 ， 那 么 先 把 它 当成 一 个 四 字 词 ， 然 后 再 进一步 
找 出 细 分 词 “ 北 京 ”和 “大 学 ”。 这 种 方法 最 早 是 郭 进 在 Computational 
Linguistics (《 计 算 机 语言 学 》) 杂志 上 发 表 的 ， 此 后 不 少 系统 都 采用 这 
种 方法 。 


一 般 来 讲 ， 根 据 不 同 应 用 ， 汉 语 分 词 的 颗粒 度 大 小 应 该 不 同 。 比 如 ， 在 
机 器 翻译 中 , 颗粒 度 应 该 大 一 些 ,， “北京 大 学 ”就 不 能 被 分 成 两 个 词 。 
而 在 语音 识别 中 ，“ 北 京 大 学 ”一 般 是 被 分 成 两 个 词 。 因 此 ， 不 同 的 应 
用 应 该 有 不 同 的 分 词 系 统 。Google 早期 由 于 工程 师 少 , 没有 精力 开发 ， 
只 能 直接 使 用 Basis Technology 公司 的 通用 分 词 器 ， 分 词 结果 没有 针对 
搜索 进行 优化 。 因 此 ,后 来 Google 有 两 位 工程 师 葛 显 平 博士 和 朱 安 博士 ， 
专门 为 搜索 设计 和 实现 了 自己 的 分 词 系统 ， 以 适应 搜索 特殊 的 需求 。 


在 不 少 人 看 来 ， 分 词 技术 只 是 针对 亚洲 语言 的 ， 而 罗马 体系 的 拼音 语言 
没有 这 个 问题 ， 其 实 不 然 。 也 许 大 家 想不到 ， 中 文 分 词 的 方法 也 被 应 用 
到 英语 处 理 ， 主 要 是 手写 体 识别 中 。 因 为 在 识别 手写 体 时 ， 单 词 之 间 的 
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空格 就 不 很 清楚 了 。 中 文 分 词 方法 可 以 帮助 判别 英语 单词 的 边界 。 


其 实 ， 语 言 处理 的 许多 数学 方法 是 通用 的 ， 和 具体 的 语言 无 关 。 在 
Google 内 部 ,我 们 在 设计 语言 处 理 的 算法 时 ， 都 会 考虑 它 是 否 能 很 容易 
地 适用 于 各 种 自然 语言 。 这 样 才 能 有 效 地 支持 上 百 种 语言 的 搜索 。 


最 后 ， 需 要 指出 的 是 任何 方法 都 有 它 的 局 限 性 ， 虽 然 利 用 统计 语言 模型 
进行 分 词 , 可 以 取得 比 人 工 更 好 的 结果 , 但 是 也 不 可 能 做 到 百分之百 准确 。 
因为 统计 语言 模型 很 大 程度 上 是 依照 “大 众 的 想法 ”， 或 者 “多 数 句 子 
的 用 法 ”, 而 在 特定 情况 下 可 能 是 错 的 。 另 外, 有些 人 为 创造 出 的 “两 难 ” 
的 句子 ， 比 如 对 联 “ 此 地 安 能 居住 ， 其 人 好 不 悲伤 ”'， 使 用 什么 方法 也 
无 法 消除 二 义 性 。 好 在 真实 文本 中 ， 这 些 情况 几乎 不 会 发 生 。 


2 ”延伸 阅读 : 工程 上 的 细节 问题 


2.1 分 词 的 一 致 性 


如 何 衡量 分 词 结果 的 对 与 错 ， 好 与 坏 看 似 容易 ， 其 实 不 是 那么 简单 。 说 
它 看 似 容易 ， 是 因为 只 要 对 计算 机 分 词 的 结果 和 人 工分 词 的 结果 进行 比 
较 就 可 以 了 。 说 它 不 是 那么 简单 ， 是 因为 不 同 的 人 对 同一 个 句子 可 能 有 
不 同 的 分 词 方 法 。 比 如 有 的 人 认为 “清华 大 学 ”应 该 是 一 个 词 ， 有 的 人 
却 认 为 “清华 大 学 ”是 一 个 复合 词 ， 应 该 分 成 “清华 - 大 学 ”两 个 单词 。 
应 该 讲 ， 这 两 种 分 法 都 有 道理 ， 虽 然 语 言 学 家 可 能 比较 坚持 某 一 种 是 正 
确 的 。 在 不 同 的 应 用 中 ， 经 常 是 一 种 词 的 切 分 比 另 一 种 更 有 效 。 


不 同 的 人 对 词 的 切 分 看 法 上 的 差异 性 远 比 我 们 想象 的 要 大 得 多 。1994 年 ， 
我 和 IBM 的 研究 人 员 合作 ， 对 此 进行 了 研究 。IBM 提供 了 100 个 有 代表 
性 的 中 文 整 句 ， 我 组 织 30 名 清华 大 学 二 年 级 的 本 科 生 独立 地 对 它们 进行 
分 词 。 实 验 前 ， 为 了 保证 大 家 对 词 的 看 法 基本 一 致 ， 我 们 对 30 名 学 生 进 
行 了 半 个 小 时 的 培训 。 实 验 结果 表明 ， 这 30 名 教育 水 平 相当 的 大 学 生 分 
词 的 一 致 性 只 有 85%-90%。 


1 

它 的 两 种 分 词 方法 
“此 地 - 安 能 -居住 ， 
其 人 -好 不 - 翡 伤 
和 “此 地 安 - 能 居 
住 , 其 人 好 - 不 翡 
伤 "意思 完全 相反 。 
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在 将 统计 语言 模型 用 于 分 词 以 前 ， 分 词 的 准确 率 通 常 较 低 ， 可 以 提升 的 
空间 非常 大 。 不 同 的 人 切 分 的 区 别 虽 然 会 影响 分 词 评测 的 准确 性 ， 但 是 
好 的 方法 和 坏 的 方法 还 是 可 以 根据 分 词 结果 与 人 工 切 分 的 比较 来 衡量 的 。 


当 统计 语言 模型 被 广泛 应 用 后 , 不 同 的 分 词 器 产生 的 结果 的 差异 要 远 远 小 
于 不 同人 之 间 看 法 的 差异 ， 这 时 简单 依靠 与 人 工分 词 的 结果 比较 来 衡量 
分 词 器 的 准确 性 就 很 难 ， 甚 至 是 毫 无 意义 的 了 。 很 难 讲 一 个 准确 率 在 97 
% 的 分 词 器 就 一 定 比 另 一 个 准确 率 为 95% 的 要 好 ， 因 为 这 要 看 它们 选用 
的 所 谓 正确 的 人 工分 词 的 数据 是 如 何 得 来 的 。 我 们 甚至 只 能 讲 某 个 分 词 
器 和 另 一 个 分 词 器 相 比 ， 与 人 工分 词 结果 的 吻合 度 稍微 高 一 点 而 已 。 所 
幸 的 是 , 中 文 分 词 现在 是 一 个 已 经 解决 了 的 问题 , 提高 的 空间 微乎其微 了 。 
只 要 采用 统计 语言 模型 ， 效 果 都 差 不 到 哪里 去 。 


2.2， 词 的 颗粒 度 和 层次 


人 工分 词 产 生 不 一 致 性 的 原因 主要 在 于 人 们 对 词 的 颗粒 度 的 认识 问题 。 
在 汉语 里 ， 词 是 表达 意思 最 基本 的 单位 ， 再 小 意思 就 变 了 。 这 就 如 同 在 
化 学 里 分 子 是 保持 化 学 性 质 的 最 小 单位 一 样 。 再 往 下 分 到 原子 ， 化 学 的 
特性 就 变 了 。 在 这 一 点 上 所 有 的 语言 学 家 都 没有 异议 。 因 此 ， 对 于 “ 贾 
里 尼克 ”这 个 词 , 所 有 的 语言 学 家 都 会 认为 它 不 可 拆 分 , 如 果 拆 成 四 个 字 ， 
和 原来 的 人 名 就 没有 联系 了 。 但 是 对 于 “清华 大 学 ”, 大 家 的 看 法 就 不 同 了 
有 些 人 认为 它 是 一 个 整体 ， 表 示 北 京 西 郊 一 所 特定 的 大 学 ， 也 有 人 认为 
它 是 一 个 词组 , 或 者 说 是 一 个 名 词 短语 , “清华 ”是 修饰 “大 学 ”的 定语 ， 
因此 需要 拆 开 ， 不 拆 开 就 无 法 体现 它 里 面 的 修饰 关系 。 这 就 涉及 到 对 词 
的 颗粒 度 的 理解 了 。 


在 这 里 不 去 强调 谁 的 观点 对 ， 而 是 要 指出 在 不 同 的 应 用 中 ， 会 有 一 种 颗 
粒度 比 另 一 种 更 好 的 情况 。 比 如 在 机 器 翻译 中 ， 一 般 来 讲 ” 颗 粒度 大 翻 
译 效果 好 。 比 如 “联想 公司 ”作为 一 个 整体 ， 很 容易 找到 它 对 应 的 英语 
翻译 Lenovo， 如 果 分 词 时 将 它们 分 开 ， 很 有 可 能 翻译 失败 ， 因 为 联想 在 
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汉语 中 , 首先 是 “根据 相关 联 的 场景 想象 " 的 意思 。 但 是 在 另外 一 些 应 用 ， 
比如 网 页 搜索 中 ,小 的 颗粒 度 比 大 的 颗粒 度 要 好 。 比 如 清华 大 学 这 四 个 
字 如 果 作为 一 个 词 ， 在 对 网 页 分 词 后 , 它 是 一 个 整体 了 ， 当 用 户 查询 “ 清 
华 ” 时 ， 是 找 不 到 清华 大 学 的 ， 这 绝对 是 有 问题 的 。 


虽然 可 以 对 不 同 的 应 用 构造 不 同 的 分 词 器 ,但 是 这 样 做 不 仅 非常 浪费 ,而 
且 也 不 必要 。 更 好 的 方法 是 让 一 个 分 词 器 同时 支持 不 同 层次 的 词 的 切 分 。 
也 就 是 说 , 上 面 的 “清华 大 学 ” 既 可 以 被 看 成 一 个 整体 , 也 可 以 被 切 分 开 ， 
然后 由 不 同 的 应 用 自行 决定 采用 哪个 颗粒 度 的 切 分 。 这 在 原理 和 实现 上 
并 不 是 很 麻烦 ， 简 单 介 绍 如 下 。 


首先 需要 一 个 基本 的 词 表 和 一 个 复合 词 的 词 表 。 基本 词 表 包括 像 “清华”、 

“大 学 ”、“ 贾 里 尼克 ”这 样 无 法 再 分 的 词 。 复 合 词 表 包含 复合 词 以 及 
它们 由 哪些 基本 词 构 成 , 包括 像 “清华 大 学 : 清华 - 大 学 ”, “搜索 引擎 : 
搜索 - 引擎 ”。 


接 下 来 需要 根据 基本 词 表 和 复合 词 表 各 建立 一 个 语言 模型 ， 比 如 Ll 和 L2。 


然后 根据 基本 词 表 和 语言 模型 L1 对 句子 进行 分 词 ， 就 得 到 了 小 颗粒 度 的 
分 词 结果 。 如 果 对 应 到 图 4.1 的 分 词 器 中 ， 这 里 面 的 字 串 是 输入 ， 词 串 是 
输出 。 顺 便 讲 一 句 ， 基 本 词 比较 稳定 ， 分 词 方法 又 是 解决 了 的 ， 因 此 小 
颗粒 度 的 分 词 除了 偶尔 增加 点 新 词 外 ， 没 有 什么 需要 研究 和 做 的 工作 。 


最 后 ， 在 此 基础 上 ， 再 用 复合 词 表 和 语言 模型 L2 进行 第 二 次 分 词 ， 对 于 
图 4.1 的 分 词 器 ， 这 时 输入 是 基本 词 串 ， 输 出 是 复合 词 串 ， 词 表 和 语言 模 
型 两 个 数据 库 改变 了 ， 但 是 分 词 器 ( 程序 ) 本 身 和 前 面 的 完全 相同 。 


介绍 了 分 词 的 层次 概念 后 ， 我 们 可 以 更 进一步 讨论 分 词 器 准确 性 的 问题 
了 。 分 词 的 不 一 致 性 可 以 分 为 错误 和 颗粒 度 不 一 致 两 种 ,错误 又 分 成 两 类 ， 
一 类 是 越界 型 错误 ， 比 如 把 “北京 大 学 生 ” 分 成 “北京 大 学 一 生 ”。 另 
一 类 是 覆盖 型 错误 ， 比 如 把 “页 里 尼克 ” 拆 成 了 四 个 字 。 这 些 是 明显 的 
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错误 , 是 改进 分 词 器 时 要 尽 可 能 消除 的 。 接 下 来 是 颗粒 度 的 不 一 致 性 ， 
人 工分 词 的 不 一 致 性 大 多 属于 此 类 。 这 一 类 不 一 致 性 在 度量 分 词 器 的 好 
坏 时 , 可 以 不 作为 错误 , 以 免 不 同人 看 法 的 不 同 左右 了 对 分 词 器 的 度量 。 
对 于 某 些 应 用 ,需要 尽 可 能 地 找到 各 种 复合 词 ， 而 不 是 将 其 切 分 。 因 此 ， 
需要 花 一 些 功夫 做 数据 挖掘 的 工作 ， 不 断 完 善 复合 词 的 词典 ( 它 的 增长 
速度 较 快 ) ， 这 是 近年 来 中 文 分 词 主要 花 精 力 的 地 方 。 


3 小 结 


中 文 分 词 以 统计 语言 模型 为 基础 ， 经 过 几 十 年 的 发 展 和 完善 ， 今 天 基本 
上 可 以 看 做 是 一 个 已 经 解决 的 问题 。 


当然 不 同 的 人 做 的 分 词 器 有 好 有 坏 ， 这 里 面 的 差别 主要 在 于 数据 的 使 用 
和 工程 实现 的 精度 。 
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第 5 章 隐 含 马尔 可 夫 模型 


隐 含 马尔 可 夫 模型 是 一 个 并 不 复杂 的 数学 模型 ， 到 目前 为 止 ， 它 一 直 被 认 
为 是 解决 大 多 数 自然 语言 处 理 问题 最 为 快速 、 有 效 的 方法 。 它 成 功 地 解决 
了 复杂 的 语音 识别 、 机 器 翻译 等 问题 。 当 我 们 看 完 这 些 复杂 的 问题 是 如 何 
通过 简单 的 模型 描述 和 解决 时 ， 会 不 得 不 由 衷 地 感叹 数学 模型 之 妙 。 


1 通信 模型 


我 们 在 第 一 、 二 章 中 介绍 了 ， 人 类 信息 交流 的 发 展 贯穿 了 人 类 的 进化 和 
文明 的 全 过 程 。 而 自然 语言 是 人 类 交流 信息 的 工具 ,语言 和 通信 的 联系 
是 天 然 的 。 通 信 的 本 质 就 是 一 个 编 解码 和 传输 的 过 程 。 但 是 自然 语言 处 
理 早期 的 努力 都 集中 在 语法 、 语 义 和 知 识 表述 上 , 离 通 信 的 原理 越 走 越 远 ， 
而 这 样 离 答案 也 就 越 来 越 远 。 当 自然 语言 处 理 的 问题 回归 到 通信 系统 中 
的 解码 问题 时 ， 很 多 难题 都 迎刃而解 了 。 


让 我 们 先 来 看 一 个 典型 的 通信 系统 : 当 一 个 人 (或 者 机 器 ) 发 送信 息 时 ， 
他 需要 采用 一 种 能 在 媒体 中 ( 比如 空气 、 电 线 ) 传播 的 信号 ， 比 如 语音 
或 者 电话 线 的 调制 信号 ， 这 个 过 程 是 广义 上 的 编码 。 然 后 通过 媒体 传播 
到 接收 方 ， 这 个 过 程 是 信道 传输 。 在 接收 方 ， 收 听 的 人 《 或 者 机 器 ) 根 
据 事先 约定 好 的 方法 ， 将 这 些 信号 还 原 成 发 送 者 的 信息 ， 这 个 过 程 是 广 
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1 
雅 格 布 森 通 信 六 个 
要 素 是 : 发 送 者 ( 信 
息 源 )， 信 道 , 接 
收 者 ,信息 ， 上 下 
文 和 编码 。 


义 上 的 解码 。 下 图 表示 了 一 个 典型 的 通信 系统 , 它 包含 雅 格 布 森 ( Roman 


Jakobson ) 提出 的 通信 的 六 个 要 素 '。 

S152, 53,.°°° 102,03，… 
CE 
编码 解码 

发 送 者 信 通 接收 者 
图 5.1 通信 模型 


其 中 st sz,s3,… 表 示 信 息 源 发 出 的 信号 ， 比 如 手机 发 送 的 信号 。o01, 02,03,*… 
是 接收 器 ( 比如 另 一 部 手机 ) 接收 到 的 信和 号。 通信 中 的 解码 就 是 根据 接 
收 到 的 信号 01,02,03,… 还 原 出 发 送 的 信号 su 5z, 53,… 。 


那么 这 与 自然 语言 处 理 的 工作 ,比如 语音 识别 , 又 有 什么 直接 的 关系 呢 ? 
不 妨 换 一 个 角度 来 考虑 这 个 问题 。 所 谓语 音 识别 ， 就 是 听话 的 人 去 猜测 
说 话 者 要 表达 的 意思 。 这 其 实 就 像 通信 中 , 根据 接收 端 收 到 的 信号 去 分 析 、 
理解 、 还 原 发 送 端 传送 过 来 的 信息 。 我 们 平时 在 说 话 时 ， 脑 子 就 是 一 个 
信息 源 。 我 们 的 喉 哆 (声带 ) 、 空 气 ， 就 是 如 电线 和 光缆 般 的 信道 。 听 
众 的 耳 洒 就 是 接收 器 ， 而 听 到 的 声音 就 是 传送 过 来 的 信号 。 根 据 声学 信 
号 来 推测 说 话 者 的 意思 ， 就 是 语音 识别 。 如 果 接 收 端 是 一 台 计 算 机 而 不 
是 人 ， 那 么 计算 机 要 做 的 就 是 语音 的 自动 识别 。 


同样 ， 很 多 自然 语言 处 理 的 应 用 也 可 以 这 样 理解 。 在 从 汉语 到 英语 的 翻 
译 中 ， 说 话 者 讲 的 是 汉语 ， 但 是 信道 传播 编码 的 方式 是 英语 ， 如 果 利 用 
计算 机 , 根据 接收 到 的 英语 信息 , 推测 说 话 者 的 汉语 意思 , 就 是 机 器 翻译 。 
同样 ， 如 果 要 根据 带 有 拼写 错误 的 语句 推测 说 话 者 想 表达 的 正确 意思 , 那 
就 是 自动 纠 错 。 这 样 ， 几 乎 所 有 的 自然 语言 处 理 问 题 都 可 以 等 价 成 通信 
的 解码 问题 。 


在 通信 中 ， 如 何 根据 接收 端的 观测 信号 01,02,03,… 来 推测 信号 源 发 送 的 
信息 su sz,sa,… 呢 ? 只 需要 从 所 有 的 源 信息 中 找到 最 可 能 产生 出 观测 信 
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号 的 那 一 个 信息 。 用 概率 论 的 语言 来 描述 ， 就 是 在 已 知 01,02,03,… 的 情 
况 下 ， 求 得 令 条 件 概率 


P(s1, sz,53,… 101,02,03,…) 达 到 最 大 值 的 那个 信息 串 51,5z,53,…， 即 


S152,83,°"° = Arg Max P(s1, 2, 53,** |01,02,03,°%* ) (5.1) 


all ss 


其 中 Arg 是 参数 Argument 的 缩写 ， 表 示 能 获得 最 大 值 的 那个 信息 串 。 
当然 ， 上 面 的 概率 不 容易 直接 求 出 ， 不 过 可 以 间接 地 计算 它 。 利 用 贝 叶 
斯 公式 可 以 把 上 述 公式 等 价 变换 成 

P(01,02,03,% |S1, 52,53,%*) * P(s1, s2, 53,* ) 

oo (52) 
其 中 P(ot oz oa…|su sz,sa,…) 表 示 信 息 51,5z,53,… 在 传输 后 变 成 接收 
的 信号 01,02,03,… 的 可 能 性 ; 而 P(s1,s2,53,… ) 表 示 S152,53,… 本身 是 一 
个 在 接收 端 合乎 情理 的 信号 ( 比如 一 个 合乎 情理 的 句子 ) 的 可 能 性 ; 最 
后 P(01,02,03,…) 表 示 在 发 送 端 ( 比如 说 话 的 人 ) 产生 信息 01,02,03,… 
的 可 能 性 。 


大 家 读 到 这 里 也 许 会 问 ， 你 现在 是 不 是 把 问题 变 得 更 复杂 了 ， 因 为 公式 
越 写 越 长 了 。 别 着 急 ， 我 们 现在 就 来 简化 这 个 问题 。 首 先 ， 一 旦 信息 
ouv oz 03,… 产 生 了 ， 它 就 不 会 改变 了 ， 这 时 P(01,02,03,…) 就 是 一 个 可 
以 忽略 的 常数 。 因 此 ， 上 面 的 公式 可 以 等 价 成 


P(01,02,03,°" |S1, $2, S3,°"*) * P(S1, 52, 53,**) (5.3) 


当然 ， 这 里 面 还 有 两 项 ， 虽 然 多 过 ( 5.1 ) 的 一 项 ,但 是 这 个 公式 完全 可 
以 用 隐 含 马尔 可 夫 模型 ( Hidden Markov Model ) 来 估计 。 
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2 ， 隐 含 马尔 可 夫 模型 


A 


5.2 ”俄罗斯 著名 科 字 家 安 德 烈 ， 马尔 可 夫 


隐 含 马尔 可 夫 模型 ( Hidden Markov Model ) 其 实 并 不 是 19 世纪 俄罗斯 
数学 家 马尔 可 夫 ( Andrey Markov ) 发 明 的 , 而 是 美国 数学 家 鲍 姆 ( Leonard 
E. Baum ) 等 人 在 20 世纪 六 七 十 年 代 发 表 的 一 系列 论文 中 提出 的 ， 隐 含 
马尔 可 夫 模 型 的 训练 方法 ( 鲍 姆 - 韦 尔 奇 算法 ) 也 是 以 他 的 名 字 命 名 的 。 


要 介绍 隐 含 马尔 可 夫 模型 ， 还 是 要 从 马尔 可 夫 链 说 起 。 到 了 19 世纪 ， 概 
率 论 的 发 展 从 对 ( 相对 静态 的 ) 随机 变量 的 研究 发 展 到 对 随机 变量 的 
时 间 序 列 susz,sa,…,seo…， 即 随机 过 程 ( 动态 的 ) 的 研究 。 这 在 哲学 
的 意义 上 ， 是 人 类 认识 的 一 个 飞跃 。 但 是 ， 随 机 过 程 要 比 随机 变量 复 
杂 得 多 。 首 先 ， 在 任何 一 个 时 刻 t， 对 应 的 状态 st 都 是 随机 的 。 举 一 个 
大 家 熟悉 的 例子 ， 我们 可 以 把 51,sz,53,… ,se,… 看 成 是 北京 每 天 的 最 高 
气温 ， 这 里 面 每 个 状态 se 都 是 随机 的 。 第 二 ， 任 何 一 个 状态 se 的 取 值 
都 可 能 和 周围 其 他 的 状态 相关 。 回 到 上 面 的 例子 ， 任 何 一 天 的 最 高 气 
温 ， 与 这 段 时 间 以 前 的 最 高 气温 是 相关 的 。 这 样 随 机 过 程 就 有 两 个 维 
度 的 不 确定 性 。 马 尔 可 夫 为 了 简化 问题 ， 提 出 了 一 种 简化 的 假设 ， 即 
随机 过 程 中 各 个 状态 st 的 概率 分 布 ， 只 与 它 的 前 一 个 状态 st-:; 有 关 ， 即 
Pstlsi, sz sa,…,st-1) = P(stlst-i) 。 比 如 ， 对 于 天 气 预报 ， 硬 性 假定 今 
天 的 气温 只 与 昨天 有 关 而 和 前 天 无 关 。 当 然 这 种 假设 未 必 适 合 所 有 的 应 
用 , 但 是 至 少 对 以 前 很 多 不 好 解决 的 问题 给 出 了 近似 解 。 这 个 假设 后 来 
被 命名 为 马尔 可 夫 假设 ， 而 符合 这 个 假设 的 随机 过 程 则 称 为 马尔 可 夫 过 
程 ， 也 称 为 马尔 可 夫 链 。 下 图 表示 一 个 离散 的 马尔 可 夫 过 程 。 
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53 马尔 可 夫 链 


在 这 个 马尔 可 夫 链 中 ， 四 个 圈 表 示 四 个 状态 ， 每 条 边 表示 一 个 可 能 的 状 
态 转 换 ， 边 上 的 权 值 是 转移 概率 。 例 如 ， 状 态 mi 到 m2 之 间 只 有 一 条 边 ， 
且 边 上 权 值 为 1.0。 这 表示 从 状态 ma 只 可 能 转换 到 状态 m2 ， 转 移 概率 为 
1.0。 从 mz 出 发 的 有 两 条 边 : 到 ms 和 到 ma。 其 中 权 值 0.6 表示 : 如 果 某 
个 时 刻 t 的 状态 St 是 mz, 则 下 一 个 时 刻 的 状态 Se+1 = ms 的 概率 ( 可 能 性 ) 
是 60%。 如 果 用 数学 符号 表示 是 P(st+i = mslst = m2) = 0.6。 类 似 的 ， 
有 Pl(se+1 = malst = mz) = 0.4。 


把 这 个 马尔 可 夫 链 想象 成 一 台 机 器 , 它 随机 地 选择 一 个 状态 作为 初始 状态 ， 
随后 按照 上 述 规则 随机 选择 后 续 状 态 。 这 样 运行 一 段 时 间 T 之 后 ， 就 会 产 
生 一 个 状态 序列 :S15z, 53,… Sr 。 看 到 这 个 序列 的 人 ， 不 难 数 出 某 个 状态 
mi 的 出 现 次 数 #(mi) ， 以 及 从 mi 转换 到 mj 的 次 数 #(mi,my) ， 从 而 估计 
出 从 mi 到 my 的 转移 概率 #(mi,my)/#(mi) 。 每 一 个 状态 只 和 前 面 一 个 有 
关 ， 比 如 从 状态 3 到 状态 4， 不 论 在 此 之 前 是 如 何 进入 到 状态 3 的 (是 从 
状态 2 进入， 还 是 在 状态 3 本 身 转 了 几 个 圈子 ) ， 这 个 概率 都 是 0.3。 


隐 含 马尔 可 夫 模 型 是 上 述 马尔 可 夫 链 的 一 个 扩展 : 任 一 时 刻 t 的 状态 se 
是 不 可 见 的。 所 以 观察 者 没 法 通过 观察 到 一 个 状态 序列 st 5z, Sa … ST 
来 推测 转移 概率 等 参数 。 但 是 ， 隐 含 马 尔 可 夫 模 型 在 每 个 时 刻 t 会 输出 
一 个 符号 of ， 而 且 oe 和 st 相关 且 仅 和 st 相关。 这 个 被 称 为 独立 输出 假 
设 。 隐 含 马尔 可 夫 模型 的 结构 如 下 : 其 中 隐 含 的 状态 st sz, 53 人 是 一 个 
典型 的 马尔 可 夫 链 。 鲍 姆 把 这 种 模型 称 为 “ 隐 含 ”马尔 可 夫 模 型 。 
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omOmOm 
一 名 = 


图 5.4 隐 合 马尔 可 夫 模型 


基于 马尔 可 夫 假设 和 独立 输出 假设 ， 我 们 可 以 计算 出 某 个 特定 的 状态 序 
列 su sz, Sa,… 产 生出 输出 符号 ou oz 03,… 的 概率 。 


Pst sz,sa,…,ouozoa…) = [|P(selse-) .PCoclsD) (5.4) 


读者 可 能 已 经 看 出 ， 公 式 ( 5.4 ) 在 形态 上 和 公式 (5.3 ) 非常 相似 。 现 在 
我 们 把 马尔 可 夫 假设 和 独立 输出 假设 用 于 通信 的 解码 问题 (5.3 ) ， 即 把 


PC(ou oz oa,…| Su sz, Sa) = IIPcelso 
上 


(5.5) 
PGsuszsa…) = [PCsels-) 


代入 (5.3) ， 这 时 正好 得 到 ( 5.4 ) 。 这 样 通信 的 解码 问题 就 可 以 用 隐 含 
马尔 可 夫 模 型 来 解决 了 。 而 很 多 自然 语言 处 理 问 题 是 和 通信 的 解码 问题 
等 价 的 ， 因 此 它们 完全 可 以 由 隐 含 马尔 可 夫 模 型 来 解决 。 至 于 如 何 找 出 
上 面 式 子 的 最 大 值 ， 进 而 找 出 要 识别 的 句子 su sz,sa,… ， 可 以 利用 维特 
比 算法 ( Viterbi Algorithm ) , 这 里 面 的 细节 我 们 会 在 后 面 的 章节 中 介绍 。 


在 公式 ( 5.3 ) 中 ，P(s1,s2,53,… ) 是 语言 模型 ， 我 们 在 前 面 的 一 章 已 经 介 
绍 过 了 。 


P(s1,sz,53,…101,02,03,…) 根 据 应 用 的 不 同 而 有 不 同 的 名 称 ， 在 语音 识 
别 中 它 被 称 为 “声学 模型 ” ( Acoustic Model ) ,在 机 器 翻译 中 是 “ 翻 
译 模型 "( Translation Model ), 而 在 拼写 校正 中 是 “ 纠 错 模型 ”( Correction 
Model ) 。 


隐 含 马尔 可 夫 模型 成 功 的 应 用 最 早 是 语音 识别 。20 世纪 70 年 代 ， 当 时 
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IBM 华 生 实 验 室 的 页 里 尼克 领导 的 科学 家 们 ， 主 要 是 刚刚 从 卡 内 基 - 梅 
隆 大 学 毕业 的 贝克 夫妇 (James and Janet Baker ) *， 提 出 用 隐 含 马尔 可 
夫 模 型 来 识别 语音 ,语音 识别 的 错误 率 相 比 人 工 智能 和 模式 匹配 等 方法 2 


降低 了 三 分 之 二 ( 从 30% 到 10% ) 。20 世纪 80 年 代 来 李开复 博士 坚持 。 二 ”站 吕 和 师 


采用 隐 含 马尔 可 夫 模型 的 框架 ,成功 地 开发 了 世界 上 第 一 个 大 词汇 量 连 ea 


续 语音 识别 系统 Sphinx。 接 下 来 ， 隐 和 含 马尔 可 夫 模 型 陆续 成 功 地 应 用 于 
机 器 翻译 、 拼 写 纠 错 、 手 写 体 识别 、 图 像 处 理 、 基 因 序 列 分 析 等 很 多 IT 
领域 ， 近 20 年 来 ， 它 还 广泛 应 用 于 股票 预测 和 投资 。 


我 最 早 接触 到 隐 含 马尔 可 夫 模型 是 20 多 年 前 的 事 。 那 时 在 “随机 过 程 ”( 清 
华 过 去 “臭名 昭著 ”的 一 门 课 ) 里 学 到 这 个 模型 ， 但 当时 实在 想 不 出 它 
有 什么 实际 用 途 。 几 年 后 ， 我 在 清华 跟随 王 作 英 教授 学 习 、 研 究 语音 识 
别 时 ,他 给 了 我 几 十 篇 文献 ,我 印象 最 深 的 就 是 贾 里 尼克 和 李开复 的 文章 ， 
它们 的 核心 思想 就 是 隐 含 马尔 可 夫 模 型 。 复 杂 的 语音 识别 问题 居然 能 如 
此 简单 地 表述 、 解 决 ， 我 由 衷 地 感叹 数学 模型 之 妙 。 


3 延伸 阅读 : 隐 含 马尔 可 夫 模 型 的 训练 


读者 知识 背景 : 概率 论 。 
围绕 着 隐 含 马尔 可 夫 模型 有 三 个 基本 问题 : 


1， 给 定 一 个 模型 ， 如 何 计算 某 个 特定 的 输出 序列 的 概率 ， 

2. 给 定 一 个 模型 和 某 个 特定 的 输出 序列 ， 如 何 找到 最 可 能 产生 这 
个 输出 的 状态 序列 ; 

3， 给 定 足够 量 的 观测 数据 ， 如 何 估计 隐 含 马尔 可 夫 模型 的 参数 。 


第 一 个 问题 相对 简单 ， 对 应 的 算法 是 Forward-Backward 算法 ， 在 此 略 
过 ， 有 兴趣 的 读者 可 以 参看 弗 里 德里 克 * 机 里 尼克 ( Frederick Jelinek ) 


的 Statistical Methods for Speech Recognition ( Language, Speech, and a 


The MIT Press 


Communication ) 一 书 ，。 第 二 个 问题 可 以 用 著名 的 维特 比 算法 解决 ， 我们 。 (anuary16.1998) 
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在 以 后 的 章节 中 会 介绍 。 第 三 个 问题 就 是 我 们 这 一 节 要 讨论 的 模型 训练 问题 。 


在 利用 隐 含 马尔 可 夫 模 型 解决 实际 问题 中 ， 需 要 事先 知道 从 前 一 个 状态 
st-1 进 入 当前 状态 se 的 概率 P(stlst-1) ， 也 称 为 转移 概率 ( Transition 
Probability ) ， 和 每 个 状态 se 产生 相应 输出 符号 ot 的 概率 P(otlst) ， 也 称 
为 生成 概率 ( Generation Probability ) 。 这 些 概率 被 称 为 隐 含 马尔 可 夫 
模型 的 参数 ， 而 计算 或 者 估计 这 些 参数 的 过 程 称 为 模型 的 训练 。 


我 们 从 条 件 概率 的 定义 出 发 ， 知 道 : 


Pou 
Plorlst) = 全 (5.6) 
Pl(se_1, 
Plstlse-1) = ee (5.7) 


对 于 公式 (5.6) 的 状态 输出 概率 ， 如 果 有 足够 多 人 工 标记 (Human 
Annotated ) 的 数据 ， 知 道 经 过 状态 sx* 有 多 少 次 #(st) ， 每 次 经 过 这 个 状态 时 ， 
分 别 产生 的 输出 ot 是 什么 ， 而 且 分 别 有 多 少 次 #(oe, se) 就 可 以 用 两 者 的 比值 
#(0¢, St) 

A#(st) (5.8) 
直接 算出 (估计 出 ) 模型 的 参数 。 因 为 数据 是 人 工 标注 的 ， 因 此 这 种 方 
法 称 为 有 监督 的 训练 方法 ( Supervised Training ) 。 对 于 公式 (5.7 ) 的 
转移 概率 ， 其 实 和 前 面 提 到 的 训练 统计 语言 模型 的 条 件 概率 是 完全 相同 
的 ， 因 此 可 以 依照 统计 语言 模型 的 训练 方法 


PCorlso = 


#(wi-1, wi) 


P(wilwi-1) ~ HW) (5.9) 


直接 得 到 。 有 监督 的 训练 的 前 提 是 需要 大 量 人 工 标 注 的 数据 。 很 遗憾 的 是 ， 
很 多 应 用 都 不 可 能 做 到 这 件 事 ， 比 如 在 语言 识别 中 的 声学 模型 训练 ， 人 
是 无 法 确定 产生 某 个 语音 的 状态 序列 的 ， 因 此 也 就 无 法 标注 训练 模型 的 
数据 。 而 在 另外 一 些 应 用 中 ,虽然 标注 数据 是 可 行 的 , 但 是 成 本 非常 高 。 
比如 训练 中 英 机 器 翻译 的 模型 ， 需 要 大 量 中 英 对 照 的 语 料 ， 还 要 把 中 英 
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文 的 词组 一 一 对 应 起 来 ， 这 个 成 本 非常 高 。 因 此 ,训练 隐 含 马尔 可 夫 模 
型 更 实用 的 方式 是 仅仅 通过 大 量 观测 到 的 信号 01,02,03,… 就 能 推算 模型 
参数 的 P(stlse-1) 和 P(otlst) 的 方法 , 这 类 方法 称 为 无 监督 的 训练 算法 ， 
其 中 主要 使 用 的 是 鲍 姆 - 韦 尔 奇 算法 ( Baum-Welch Algorithm ) 。 


两 个 不 同 的 隐 含 马尔 可 夫 模 型 可 以 产生 同样 的 输出 信号 ， 因 此 ， 仅 仅 通 
过 观察 到 的 输出 信号 来 倒 推 产生 它 的 隐 含 马尔 可 夫 模 型 可 能 会 得 到 很 多 
个 合适 的 。 但 是 总 会 是 一 个 模型 Mez 比 另 一 个 Mo1 更 有 可 能 产生 观测 到 
的 输出 ， 其 中 9z 和 6: 是 隐 含 马尔 可 夫 模型 的 参数 。 鲍 姆 - 韦 尔 奇 算法 就 
是 寻找 这 个 最 可 能 的 模型 Ma 。 


在 鲍 姆 - 韦 尔 奇 算法 的 思想 是 这 样 的 : 


首先 找到 一 组 能 够 产生 输出 序列 0 的 模型 参数 。 ( 显然 它们 是 一 定 存在 的 ， 
因为 转移 概率 P 和 输出 概率 Q 为 均匀 分 布 时 ， 模 型 可 以 产生 任何 输出 ， 当 
然 包括 我 们 观察 到 的 输出 0 。 ) 现在 ， 有 了 这 样 一 个 初始 的 模型 ， 我 们 称 
为 Meo ， 需 要 在 此 基础 上 找到 一 个 更 好 的 模型 。 假 定 解决 了 第 一 个 问题 和 
第 二 个 问题 ， 不 但 可 以 算出 这 个 模型 产生 0 的 概率 P(OIMeo) ， 而 且 能 够 
找到 这 个 模型 产生 0 的 所 有 可 能 的 路 径 以 及 这 些 路 径 的 概率 。 这 些 可 能 的 
路 径 ， 实 际 上 记录 了 每 个 状态 经 历 的 多 少 次 ， 到 达 了 哪些 状态 ， 输 出 了 哪 
些 符号 ， 因 此 可 以 将 它们 看 做 是 “标注 的 训练 数据 ”， 并 且 根 据 公 式 ( 5.6 ) 
和 (5.7 ) 计算 出 一 组 新 的 模型 参数 9: ， 从 Meo 到 Moi 的 过 程 称 为 一 次 迭代 。 
可 以 证 明 


P(OIMei) > P(OIMeo) (5.10) 


接 下 来 ， 我们 从 Mei 出发， 可 以 找到 一 个 更 好 的 模型 Mez ， 并 且 不 断 地 找 
下 去 ， 直 到 模型 的 质量 没有 明显 提高 为 止 。 这 就 是 鲍 姆 - 韦 尔 奇 算法 的 
原理 ， 对 于 具体 算法 的 公式 ， 有 兴趣 的 读者 可 以 阅读 参考 文献 [5.2] ， 我 
就 不 再 刺 述 了 。 


鲍 姆 - 韦 尔 奇 算法 的 每 一 次 迭代 都 是 不 断 地 估计 ( Expectation ) 新 的 模 
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型 参数 , 使 得 输出 的 概率 ( 我 们 的 目标 函数 ) 达 到 最 大 化 ( Maximization ) ， 
因此 这 个 过 程 被 称 为 期 望 值 最 大 化 ( Expectation-Maximization ) ， 简 称 
EM 过 程 。EM 过 程 保证 算法 一 定 能 收敛 到 一 个 局 部 最 优点 ， 很 遗憾 它 一 
般 不 能 保证 找到 全 局 最 优点 。 因 此 ， 在 一 些 自然 语言 处 理 的 应 用 中 ， 比 
如 词性 标注 ， 这 种 无 监督 的 鲍 姆 - 韦 尔 奇 算法 训练 出 的 模型 比 有 监督 的 
训练 得 到 的 模型 效果 上 略 差 ， 因 为 前 者 未 必 能 收敛 到 全 局 最 优点 。 但 是 如 
果 目 标 函 数 是 凸 函数 ( 比如 信息 粹 ) ， 则 只 有 一 个 最 优点 ， 在 这 种 情况 
下 EM 过 程 可 以 找到 最 佳 值 。 


4 小 结 


隐 含 马尔 可 夫 模 型 最 初 应 用 于 通信 和 领域 , 继而 推广 到 语音 和 语言 处 理 中 ， 
成 为 连接 自然 语言 处 理 和 通信 的 桥梁 。 同 时 ， 隐 含 马尔 可 夫 模型 也 是 机 
器 学 习 主 要 工具 之 一 。 和 几乎 所 有 的 机 器 学 习 的 模型 工具 一 样 ， 它 需要 
一 个 训练 算法 ( 鲍 姆 - 韦 尔 奇 算法 ) 和 使 用 时 的 解码 算法 ( 维特 比 算法 ) ， 
掌握 了 这 两 类 算法 ， 就 基本 上 可 以 使 用 隐 含 马尔 可 夫 模型 这 个 工具 了 。 
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第 6 章 信息 的 度量 和 作用 


到 目前 为 止 ， 虽 然 我 们 一 直 在 谈论 信息 ， 但 是 信息 这 个 概念 依然 有 些 抽 
象 。 我 们 常常 说 信息 很 多 ， 或 者 信息 较 少 ， 但 却 很 难说 清楚 信息 到 底 有 多 
少 。 比 如 一 本 50 多 万 字 的 中 文书 《史记 》 到 底 有 多 少 信息 量 ， 或 者 一 套 
莎士比亚 全 集 有 多 少 信息 量 。 我 们 也 常 说 信息 有 用 ， 那 么 它 的 作用 是 如 何 
客观 、 定 量 地 体现 出 来 的 呢 ? 信息 用 途 的 背后 是 否 有 理论 基础 呢 ? 这 两 
个 问题 几 千年 来 都 没有 人 给 出 很 好 的 解答 。 直 到 1948 年 ， 香 农 ( Claude 
Shannon ) 在 他 著名 的 论文 “通信 的 数学 原理 ” ( 4 Mathematic Theory of 
Communication ) 中 提出 了 “信息 炉 ” ( 读 shang) ) 的 概念 ， 才 解决 了 信 
息 的 度量 问题 ， 并 且 量 化 出 信息 的 作用 。 


1 信息 入 


一 条 信息 的 信息 量 和 它 的 不 确定 性 有 着 直接 的 关系 。 比 如 说 ， 我 们 要 搞 
清楚 一 件 非常 非常 不 确定 的 事 ， 或 是 我 们 一 无 所 知 的 事情 ， 就 需要 了 解 
大 量 的 信息 。 相 反 ， 如 果 我 们 对 某 件 事 已 经 有 了 较 多 的 了 解 ， 那 么 不 需 
要 太 多 的 信息 就 能 把 它 搞 清 楚 。 所 以 ， 从 这 个 角度 来 看 ， 可 以 认为 ， 信 
息 量 就 等 于 不 确定 性 的 多 少 。 
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1 
如 无 特别 说 明 ， 本 书 
中 的 对 数 一 律 以 2 为 
底 。 


那么 如 何 量化 信息 的 度量 呢 ? 来 看 一 个 例子 。2010 年 举行 了 世界 杯 足 球 
赛 ， 大 家 都 很 关心 谁 会 是 冠军 。 假 如 我 错过 了 看 世界 杯 ， 赛 后 我 问 一 个 
知道 比赛 结果 的 观众 “ 哪 支 球 队 是 冠军 ”? 他 不 愿意 直接 告诉 我 ， 而 让 
我 猜 ， 并 且 我 每 猜 一 次 ， 他 要 收 一 元 钱 才 肯 告 诉 我 是 否 猜 对 了 ， 那么 我 
需要 付 给 他 多 少 钱 才 能 知道 谁 是 冠军 呢 ? 我 可 以 把 球 队 编 上 号 ， 从 1 到 
32， 然 后 提问 : “冠军 的 球 队 在 1-16 号 中 吗 ? ”假如 他 告诉 我 猜 对 了 ， 
我 会 接着 问 : “冠军 在 1-8 号 中 吗 ? ”假如 他 告诉 我 猜 错 了 ， 我 自然 知 
道 冠 军队 在 9-16 号 中 。 这 样 只 需要 五 次 , 我 就 能 知道 哪 支 球 队 是 冠军 。 
所 以 ， 谁 是 世界 杯 冠军 这 条 消息 的 信息 量 只 值 5 块 钱 。 


当然 ， 香 农 不 是 用 钱 ， 而 是 用 “比特 ”( Bit ) 这 个 概念 来 度量 信息 量 。 

-个 比特 是 一 位 二 进 制 数 ， 计 算 机 中 的 一 个 字 节 是 8 比特 。 在 上 面 的 例 
子 中 ， 这 条 消息 的 信息 量 是 5 比特 。 ( 如 果 有 朝 一 日 有 64 支 球 队 进入 决 
赛 阶段 的 比赛 ,那么 “ 谁 是 世界 杯 冠 军 ” 的 信息 量 就 是 6 比特 ， 因 为 要 
多 猜 一 次 。 ) 读者 可 能 已 经 发 现 , 信息 量 的 比特 数 和 所 有 可 能 情况 的 对 数 
函数 log 有关 '。 (log32 = 5, log64 = 6) 


有 些 读者 此 时 可 能 会 发 现实 际 上 可 能 不 需要 猿 五 次 就 能 猜 出 谁 是 冠军 ， 因 
为 像 西 班 牙 、 巴西 、 德国、 意大利 这 样 的 球 队 得 冠军 的 可 能 性 比 日 本 、 南 非 、 
韩国 等 球 队 大 得 多 。 因此, 第 一 次 猜测 时 不 需要 把 32 支 球 队 等 分 成 两 个 组 ， 
而 可 以 把 少数 几 支 最 可 能 的 球 队 分 成 一 组 ， 把 其 他 队 分 成 另 一 组 。 然 后 猿 
冠军 球 队 是 否 在 那 几 支 热门 队 中 。 重 复 这 样 的 过 程 ， 根 据 夺冠 概率 对 剩 下 
的 候选 球 队 分 组 , 直至 找到 冠军 队 。 这样, 也许 三次 或 四 次 就 猜 出 结果 。 
因此 ， 当 每 支 球 队 夺 冠 的 可 能 性 ( 概率 ) 不 等 时 ，“ 谁 是 世界 杯 冠军 ”的 
信息 量 比 5 比特 少 。 香农 指出 ， 它 的 准确 信息 量 应 该 是 


H=—(pi*logp1 + pz -logpz 十 … 十 paz logPpsaz) (6.1) 


其 中 ，p1,pz,…,paz 分 别 是 这 32 支 球 队 夺冠 的 概率 。 香 农 把 它 称 为 “ 信 
息 炉 ”(Entropy ) ,一 般 用 符号 有 H 表 示 ， 单 位 是 比特 。 有 兴趣 的 读者 可 以 
推算 一 下 当 32 支 球 队 夺冠 概率 相同 时 ， 对 应 的 信息 粹 等 于 5 比特 。 有 数 
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学 基础 的 读者 还 可 以 证 明 上 面 公式 的 值 不 可 能 大 于 5。 对 于 任意 一 个 随机 
变量 X ( 比如 得 冠军 的 球 队 ) ， 它 的 炉 定义 如 下 : 


H(X) = ~ P(x) logP(x) (6.2) 


变量 的 不 确定 性 越 大 ， 焙 也 就 越 大 ， 把 它 搞 清楚 所 需要 的 信息 量 也 就 越 
大 。 信 息 量 的 量化 度量 为 什么 叫做 “ 粹 ”这 么 一 个 奇怪 的 名 字 呢 ?因为 
它 的 定义 形式 和 热力 学 的 精 有 很 大 的 相似 性 。 这 一 点 我 们 在 扩展 阅读 中 
再 介绍 。 


有 了 “ 粹 ”这 个 概念 ， 就 可 以 回答 本 文 开 始 提 出 的 问题 ， 即 一 本 50 万 字 
的 中 文书 平均 有 多 少 信息 量 。 我 们 知道 , 常用 的 汉字 ( 一 级 二 级 国标 ) 
大 约 有 7 000 字 。 假 如 每 个 字 等 概率 ,那么 大 约 需 要 13 比特 ( 即 13 位 二 
进 制 数 ) 表示 一 个 汉字 。 但 汉字 的 使 用 是 不 平衡 的 。 实 际 上 ， 前 10% 的 
汉字 占 常用 文本 的 95% 以 上 。 因 此 ， 即 使 不 考虑 上 下 文 的 相关 性 ， 而 只 
考虑 每 个 汉字 的 独立 概率 , 那么 , 每 个 汉字 的 信息 炳 大 约 也 只 有 8-9 比特 。 
如 果 再 考虑 上 下 文 相关 性 , 每 个 汉字 的 信息 炉 就 只 有 5 比特 左右 。 所 以 ， 
一 本 50 万 字 的 中 文书 ， 信 息 量 大 约 是 250 万 比特 。 如 果 用 一 个 好 的 算法 
压缩 一 下 ， 整 本 书 可 以 存 成 一 个 320KB 的 文件 。 如 果 直 接 用 两 字 节 的 国 
标 编码 存储 这 本 书 ， 大 约 需要 1MB 大 小 ， 是 压缩 文件 的 三 倍 。 这 两 个 数 
量 的 差距 ， 在 信息 论 中 称 作 “ 元 余 度 ” ( Redundancy ) 。 需 要 指出 的 是 
这 里 讲 的 250 万 比特 是 个 平均 数 ， 同 样 长 度 的 书 ， 所 含 的 信息 量 可 以 相 
差 很 多 。 如 果 一 本 书 重复 的 内 容 很 多 ， 它 的 信息 量 就 小 ， 宛 余 度 就 大 。 


不 同 语言 的 完 余 度 差别 很 大 ,而 汉语 在 所 有 语言 中 宛 余 度 是 相对 小 的 。 大 

家 可 能 都 有 这 个 经 验 , 一 本 英文 书 ， 翻 译 成 汉语 ， 如 果 字 体 大 小 相同 ,， 那 

么 中 译本 一 般 都 会 薄 很 多 。 这 和 人 们 普遍 的 认识 一 - 汉语 是 最 简洁 的 语 2 

言 一 是 -一致 的 。 对 中 文 信息 精 有 兴趣 的 读者 可 以 读 我 和 王 作 英 教授 在 ”nene 59 
《 
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2 信息 的 作用 


自古 以 来 ， 信 息 和 消除 不 确定 性 是 相 联 系 的 。 在 英语 里 ， 信 息 和 情报 是 
同一 个 词 (Information ) ,而 我 们 知道 情报 的 作用 就 是 排除 不 确定 性 。 
有 些 时 候 , 在 战争 中 一 比特 的 信息 能 抵 过 千 军 万 马 。 在 第 二 次 世界 大 战 中 ， 
当 纳粹 德国 兵 临 前 苏联 莫斯科 城下 时 ， 斯 大 林 在 欧洲 已 经 无 兵 可 派 ， 而 
他 们 在 西伯 利 亚 的 中 苏 边界 却 有 60 万 大 军 不 敢 使 用 ， 因 为 苏联 人 不 知道 
德国 的 轴 心 国 盟友 日 本 当时 的 军事 策略 是 北上 进攻 前 苏联 ， 还 是 南下 和 
美国 开战 。 如 果 是 南下 ， 那 么 苏联 人 就 可 以 放心 大 胆 地 从 亚洲 撤回 60 万 
大 军 增援 莫斯科 会 战 。 事 实 上 日 本 人 选择 了 南下 ， 其 直接 行动 是 后 来 的 
偷袭 珍珠 港 ,但 是 苏联 人 并 不 知晓 。 斯 大 林 不 能 猜 ， 因 为 猜 错 了 后 果 是 
很 严重 的 。 这 个 “ 猜 ” 既 是 指 扔 钢 铺 儿 似 的 卜 卦 ， 也 包括 主观 的 脐 断 。 
最 后 ， 传 奇 间谍 佐 尔 格 向 莫斯科 发 去 了 信息 量 仅 1 比特 、 却 价值 无 限 的 
情报 ( 信息 ) : “日 本 将 南下 ”， 于 是 前 苏联 就 把 西伯 利 亚 所 有 的 军队 
调 往 了 欧洲 战场 。 后 面 的 故事 大 家 都 知道 了 。 


如 果 把 这 个 故事 背后 的 信息 论 原理 抽象 化 、 普 遍 化 ， 可 以 总 结 如 下 : 


信息 


图 61 信息 是 消除 系统 不 确定 性 的 唯一 办 法 ( 在 没有 获得 任何 信息 前 ， 一 个 系统 就 像 是 一 
个 黑 盒子 ， 引 入 信息 ， 就 可 以 了 解 黑 盒子 系统 的 内 部 结构 ) 

一 个 事物 ( 比如 上 面 讲 到 的 日 本 内 阁 的 战略 决定 ) 内 部 会 存在 着 随机 性 ， 

也 就 是 不 确定 性 ， 假 定 为 U， 而 从 外 部 消除 这 个 不 确定 性 唯一 的 办 法 是 引 

和 人 信息 1, 而 需要 引入 的 信息 量 取决 于 这 个 不 确定 性 的 大 小 , 即 J >U 才 行 。 

当 1 < U 时 , 这 些 信息 可 以 消除 一 部 分 不 确定 性 , 也 就 是 说 新 的 不 确定 性 。 


1 


Uv =U-I (6.3) 
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反之 , 如 果 没 有 信息 , 任何 公式 或 者 数字 的 游戏 都 无 法 排除 不 确定 性 。 
这 个 朴素 的 结论 非常 重要 ， 但 是 在 研究 工作 中 经 常 被 一 些 半 瓶子 本 的 专 
家 忽视 ， 希 望 做 这 方面 工作 的 读者 谨 记 。 几 乎 所 有 的 自然 语言 处 理 、 信 
息 与 信号 处 理 的 应 用 都 是 一 个 消除 不 确定 性 的 过 程 。 读 了 这 本 书 早 期 博 
客 的 读者 很 多 都 反映 ， 和 希望 我 多 讲 点 搜索 方面 的 例子 ， 因 此 这 里 就 以 搜 
索 为 例 说 明 信 息 的 作用 。 


网 页 搜索 本 质 上 就 是 要 从 大 量 ( 几 十 亿 个 ) 网 页 中 , 找到 和 用 户 输入 的 搜 
索 词 最 相关 的 几 个 网 页 。 几 十 亿 个 可 能 性 ， 当 然 是 很 大 的 不 确定 性 局。 
如 果 只 剩 下 几 个 网 页 ， 就 几乎 没有 了 不 确定 性 了 (此 时 U' << 以 )， 甚 至 
是 完全 确定 了 ( 对 于 导航 类 搜索 就 是 如 此 ， 第 一 条 结果 通常 就 是 要 找 的 
网 页 ) 。 因 此 ， 网 页 搜索 本 质 上 也 是 利用 信息 消除 不 确定 性 的 过 程 。 如 
果 提 供 的 信息 不 够 多 , 比如 搜索 词 是 常用 的 关键 词 , 诸如 “中 国 ”、“ 经 济 ” 
之 类 的 ， 那 么 会 有 好 多 相关 的 结果 ， 用 户 可 能 还 是 无 从 选择 。 这 时 正确 
的 做 法 是 挖掘 新 的 隐 含 的 信息 ， 比 如 网 页 本 身 的 质量 信息 。 如 果 这 些 信 
息 还 是 不 够 消除 不 确定 性 , 不妨 再 问 问 用户 。 这 就 是 相关 搜索 的 理论 基础 。 
不 正确 的 做 法 是 在 这 个 关键 词 上 玩 数字 和 公式 的 游戏 ， 由 于 没有 额外 的 
信息 引入 ， 这 种 做 法 没有 效果 ， 这 就 是 很 多 做 搜索 质量 的 人 非常 辛苦 却 
很 省 有 收获 的 原因 。 最 粳 糕 的 做 法 是 引入 人 为 的 假设 , 这 和 “ 蒙 ” 没 什 
么 差别 。 其 结果 是 似乎 满足 了 个 别 用 户 的 口味 , 但 是 对 大 部 分 用 户 来 讲 ， 
搜索 结果 反而 变 得 更 糟 ( 这 就 如 同 斯 大 林 胡 乱 猜 测 日 本 的 战略 意图 一 样 )。 
合理 利用 信息 , 而 不 是 玩弄 什么 公式 和 机 器 学 习 算法 , 是 做 好 搜索 的 关键 。 


知道 的 信息 越 多 ， 随 机 事件 的 不 确定 性 就 越 小 。 这 些 信 息 ， 可 以 是 直接 
针对 我 们 要 了 解 的 随机 事件 ， 比 如 上 面 提 到 的 日 本 内 阁 的 战略 决定 ; 也 
可 以 是 和 我 们 关心 的 随机 事件 相关 的 其 他 (事件 ) 的 信息 一 通过 获取 
这 些 相 关 信 息 也 能 帮助 我 们 了 解 所 关注 的 对 象 。 比 如 在 前 面 儿 章 提 到 的 
自然 语言 的 统计 模型 , 其 中 的 一 元 模型 就 是 通过 某 个 词 本 身 的 概率 分 布 
来 消除 不 确定 因素 ; 而 二 元 及 更 高 阶 的 语言 模型 则 还 使 用 了 上 下 文 的 信 
息 ， 那 就 能 准确 预测 一 个 句子 中 当前 的 词汇 了 。 在 数学 上 可 以 严格 地 证 


64 是 数学 之 美 


明 为 什么 这 些 “ 相 关 的 ”信息 也 能 够 消除 不 确定 性 。 为 此 ， 需 要 引入 一 
个 条 件 箭 ( Conditional Entropy ) 的 概念 。 


假定 X 和 Y 是 两 个 随机 变量 ，X 是 我 们 需要 了 解 的 。 假 定 我 们 现在 知道 了 
的 随机 分 布 P(X) ， 那 么 也 就 知道 了 X 的 炉 : 


H(W =—D P(x) "logP(x) (6.4) 


那么 它 的 不 确定 性 就 是 这 么 大 。 现 在 假定 我 们 还 知道 Y 的 一 些 情况 ， 包 括 
它 和 X% 一 起 出 现 的 概率 ， 在 数学 上 称 为 联合 概率 分 布 (Joint Probability ) ， 
以 及 在 Y 取 不 同 值 的 前 提 下 X 的 概率 分 布 ， 在 数学 上 称 为 条 件 概率 分 布 
( Conditional Probability ) 。 定 义 在 Y 的 条 件 下 XX 的 条 件 炳 为 : 


HOXIY) = —B P(x,y) logP(x|y) (6.5) 


在 本 章 的 延伸 阅读 中 ， 我 们 会 证 明 H(X) > H(XIY)， 也 就 是 说 多 了 Y 
的 信息 ， 关 于 X 的 不 确定 性 下 降 了 ! 在 统计 语言 模型 中 ， 如 果 把 Y 看 成 
是 前 一 个 字 , 那么 在 数学 上 就 证 明了 二 元 模型 的 不 确定 性 小 于 一 元 模型 。 
同样 的 道理 ， 可 以 定义 有 两 个 条 件 的 条 件 炉 

HOXIY,2) = — PP(x,y,z)1ogP(xly,z) (6.6) 


xexyerzez 


还 可 以 证 明 H(XIY) > H(XIY,2Z)。 也 就 是 说 ， 三 元 模型 应 该 比 二 元 的 好 。 


最 后 还 有 一 个 有 意思 的 问题 : 在 上 面 的 公式 中 的 等 号 什么 时 候 成 立 ? 等 
号 成 立 说 明 增加 了 信息 , 不 确定 性 却 没有 降低 -这 可 能 么 ? 答案 是 肯定 的 ， 
即 当 我 们 获取 的 信息 和 我 们 要 研究 的 事物 没有 关系 的 时 候 。 再 回 到 本 节 
上 面 的 例子 ， 如 果 佐 尔格 送 去 的 情报 是 关于 德国 人 和 英国 人 在 北非 的 军 
事 行动 ， 则 不 论 这 样 的 情报 有 多 少 ， 都 解决 不 了 斯 大 林 的 末 惑 。 


用 一 句 话 概括 这 一 节 : 信息 的 作用 在 于 消除 不 确定 性 。 自 然 语言 处 理 的 
大 量 问题 就 是 找 相关 的 信息 。 
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3 ”延伸 阅读 : 信息 论 在 信息 处 理 中 的 应 用 
读者 知识 背景 : 概率 论 。 


前 面 已 经 介绍 了 信息 粹 ， 它 是 信息 论 的 基础 ， 信 息 论 在 自然 语言 处 理 中 扮 

演 着 指导 性 的 角色 , 在 这 一 节 里 我 们 看 看 信息 论 的 另外 两 个 重要 的 概念 一 
“互信 息 ” ( Mutual Information ) 和 “相对 炉 ” ( Relative Entropy, 或 

Kullback-Leibler Divergence ) ， 以 及 它们 在 自然 语言 处 理 中 的 作用 。 


3.1 五 信息 


前 面 6.2 节 中 提 到 ， 当 获取 的 信息 和 要 研究 的 事物 “有 关系 ”时 ， 这 些 信 
息 才 能 帮助 我 们 消除 不 确定 性 。 当 然 * 有 关系 "这 种 说 法 太 模 糊 , 太 不 科学 ， 
最 好 能 够 量化 地 度量 “相关 性 ”。 比如 常识 告诉 我 们 ,一 个 随机 事件 “ 今 
天 北京 下 雨 ” 和 另 一 个 随机 变量 “过 去 24 小 时 北京 空气 的 湿度 ”的 相关 
性 就 很 大 ， 但 是 它们 的 相关 性 到 底 有 多 大 ? 再 比如 “过 去 24 小 时 北京 空 
气 的 湿度 ”似乎 就 和 “旧金山 的 天 气 ” 相 关 性 不 大 ， 但 我 们 是 否 能 说 它 
们 毫 无 相关 性 *? 为 此 ， 香 农 在 信息 论 中 提出 了 一 个 “互信 息 ”的 概念 作 
为 对 两 个 随机 事件 “相关 性 ”的 量化 度量 。 


二 二 
、 -~1- 2 一 


-we 一 人 vv , ~ 


图 6.2 好 闷热 啊 ， 要 下 雨 了 。 问 热 和 下 雨 直接 的 互信 息 很 高 


二 
按照 蝴蝶 效应 的 理 
论 ， 它 们 的 相关 性 
并 不 如 想象 得 那么 


小 ! 
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假定 有 两 个 随机 事件 Xx 和 Y ,它们 的 互信 息 定义 如 下 : 


I = BP W logs te 


(6.7) 
exyer PCOPO) 


很 多 见 了 公式 就 头 大 的 读者 看 了 这 个 定义 可 能 会 感到 有 点 烦 。 不 过 没关系 ， 
大 家 只 要 记 住 这 个 符号 10X;Y) 就 好 。 我 们 接着 会 证 明 ， 其 实 这 个 互信 息 就 
是 上 节 介 绍 的 随机 事件 x 的 不 确定 性 或 者 说 炉 H(X) ， 以 及 在 知道 随机 事 
件 Y 条 件 下 的 不 确定 性 ,或 者 说 条 件 炉 HCXIY) 之 间 的 差异 ， 即 


1X;Y) = 有 OO — HOXIY) (6.8) 


现在 清楚 了 ， 所 谓 两 个 事件 相关 性 的 量化 度量 ， 就 是 在 了 解 了 其 中 一 个 
Y 的 前 担 下 ,对 消除 另 一 个 X 不 确定 性 所 提供 的 信息 量 。 需 要 讲 一 下 ， 
互信 息 是 一 个 取 值 在 0 到 min(H(X)，H(Y)) 之 间 的 函数 ， 当 X 和 Y 完全 相 
关 时 ， 它 的 取 值 是 1; 当 二 者 完全 无 关 时 ， 它 的 取 值 是 0。 


在 自然 语言 处 理 中 ， 两 个 随机 事件 ， 或 者 语言 特征 的 互信 息 是 很 容易 计 
算 的 。 只 要 有 足够 的 语 料 ， 就 不 难 估 计 出 互信 息 公式 中 的 P(X,Y) ，P(X) 
和 P(Y) 三 个 概率 ， 进 而 算出 互信 息 。 因 此 ， 互 信息 被 广泛 用 于 度量 一 些 
语言 现象 的 相关 性 。 


机 器 翻译 中 ， 最 难 的 两 个 问题 之 一 是 词义 的 二 义 性 ( 又 称 歧义 性 ， 
Ambiguation ) 问题 。 比 如 Bush 一 词 可 以 是 美国 总 统 布什 的 名 字 ， 也 可 
以 是 灌木 从 。 ( 有 一 个 笑话 ，2004 年 和 布什 争夺 总 统 的 民主 党 候选 人 克 
里 的 名 字 Kerry 被 一 些 机 器 翻译 系统 翻译 成 了 “爱尔兰 的 小 母 牛 ”， 这 
是 Kerry 在 英语 中 的 另外 一 个 意思 。 ) 
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图 6.3 ”布什 和 克 里 电视 辩论 ( “灌木 从 ”总 统 ，“ 小 母 牛 ”参议 员 ) 


那么 如 何 正确 地 翻译 这 些 词 呢 ? 人 们 很 容易 想到 要 用 语法 、 要 分 析 语 句 
等 等 。 其 实 ， 迄 今 为 止 ， 没 有 一 种 语法 能 很 好 地 解决 这 个 问题 ， 因 为 
Bush 不 论 翻 译 成 人 名 还 是 灌木 从 ,都 是 名 词 , 在 语法 上 没有 太 大 问题 。 
当然 爱 较真 的 读者 可 能 会 提出 “必须 加 上 总 统 做 宾语 时 ， 主 语 得 是 一 个 
人 这 条 规则 ”, 要 是 这 样 , 语法 规则 就 多 得 数 不 清 了 , 而 且 还 有 很 多 例外 ， 
比如 一 个 国家 在 国际 组 织 中 也 可 以 做 主席 ( 总 统 ) 的 轮值 国 。 其 实 , 真 
正 简单 却 非常 实用 的 方法 是 使 用 互信 息 。 具 体 的 解决 办 法 大 致 如 下 : 首 
先 从 大 量 文本 中 找 出 和 总 统 布什 一 起 出 现 的 互信 息 最 大 的 一 些 词 ， 比 如 
总 统 、 美 国 、 国 会 、 华 盛 顿 等 等 ， 当 然 ， 再 用 同样 的 方法 找 出 和 灌木 丛 
一 起 出 现 的 互信 息 最 大 的 词 ,比如 土壤 、 植物 、 野 生 等 等 。 有 了 这 两 组 词 ， 
在 翻译 Bush 时 ， 看 看 上 下 文中 哪 类 相关 的 词 多 就 可 以 了 。 这 种 方法 最 初 
是 由 吉尔 ( William Gale ) 、 丘 奇 ( Kenneth Church ) 和 雅 让 斯 基 ( David 
Yarowsky ) 提出 的 。 


20 世纪 90 年 代 初 ， 雅 让 斯 基 在 宾夕法尼亚 大 学 是 自然 语言 处 理 大 师 马 
库 斯 ( Mitch Marcus ) 教授 的 博士 生 ， 他 很 多 时 候 都 泡 在 贝尔 实验 室 丘 
奇 等 人 的 研究 室 里 。 也 许 是 急于 毕业 ， 他 在 吉尔 等 人 的 帮助 下 想 出 了 一 
个 最 快 也 是 最 好 地 解决 翻译 中 的 二 义 性 的 方法 ， 就 是 上 面 的 方法 5 这 个 
看 上 去 简单 的 方法 效果 好 得 让 同行 们 大 吃 一 惊 。 雅 让 斯 基因 而 只 花 了 三 
年 就 从 马 库 斯 那里 拿 到 了 博士 ， 而 他 的 师兄 弟 们 平均 要 花 六 年 时 间 。 
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3.2 ”相对 和 


信息 论 中 另外 一 个 重要 的 概念 是 “相对 炉 ”， 在 有 些 文献 中 它 被 称 为 “ 交 
叉 炉 ”， 在 英语 中 是 Kullback-Leibler Divergence， 是 以 它 的 两 个 提出 者 
库 尔 贝 克 和 莱 伯 勒 的 名 字 命 名 的 。 相 对 炉 也 用 来 衡量 相关 性 ， 但 和 变量 
的 互信 息 不 同 ， 它 用 来 衡量 两 个 取 值 为 正 数 的 函数 的 相似 性 ， 它 的 定义 
如 下 : 


0) 
KL(f(x) lg(x)) = ZL/Wlogg) (6.9) 


同样 ， 大 家 不 必 关 心 公式 本 身 ， 只 要 记 住 下 面 三 条 结论 就 好 : 


1， 对 于 两 个 完全 相同 的 函数 ， 它 们 的 相对 炉 等 于 零 。 


2， 相 对 炉 越 大 ， 两 个 函数 差异 越 大 ; 反之 ， 相 对 炉 越 小 ， 两 个 函 
数 差异 越 小 。 


3. 对 于 概率 分 布 或 者 概率 密度 函数 ， 如 果 取 值 均 大 于 零 ， 相 对 业 
可 以 度量 两 个 随机 分 布 的 差异 性 。 


在 自然 语言 处 理 中 相对 炉 的 应 用 很 多 ， 比 如 用 来 衡量 两 个 常用 词 ( 在 语 
法 上 和 语义 上 ) 在 不 同文 本 中 的 概率 分 布 ， 看 它们 是 否 同 义 ; 或 者 根据 
两 篇 文章 中 不 同 词 的 分 布 , 看 看 它们 的 内 容 是 否 相 近 等 等 。 利 用 相对 炉 ， 

可 以 得 到 信息 检索 中 最 重要 的 一 个 概念 : 词 频率 - 逆向 文档 频率 ( TF- 
IDF ), 后 面 会 在 网 页 搜索 相关 性 和 新 闻 分 类 中 进一步 介绍 TF-IDF 的 概念 。 


炉 、 条 件 炉 和 相对 业 这 三 个 概念 与 语言 模型 的 关系 非常 密切 。 我 们 在 第 
二 章 中 谈 到 语言 模型 时 ， 没 有 讲 如 何 定量 地 衡量 一 个 语言 模型 的 好 坏 
因为 当时 还 没有 介绍 这 三 个 概念 。 当 然 ， 读 者 会 很 自然 地 想到 ， 既 然 语 
言 模型 能 减少 语音 识别 和 机 器 翻译 的 错误 ， 那 么 就 拿 一 个 语音 识别 系统 
或 者 机 器 翻译 软件 来 试 试 ， 好 的 语言 模型 必然 导致 错误 率 较 低 。 这 种 想 
法 是 对 的 ， 而 且 今天 的 语音 识别 和 机 器 翻译 也 是 这 么 做 的 。 但 这 种 测试 
方法 对 于 研发 语言 模型 的 人 来 讲 ， 既 不 直接 ， 又 不 方便 , 而且 很 难 从 错 
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误 率 反 过 来 定量 度量 语言 模型 。 事 实 上 , 在 页 里 尼克 等 人 研究 语言 模型 时 ， 
世界 上 既 没 有 像样 的 语音 识别 系统 ， 更 没有 机 器 翻译 。 我 们 知道 ， 语 言 
模型 是 为 了 用 上 下 文 预测 当前 的 文字 ， 模 型 越 好 ， 预 测 得 越 准 ， 那 么 当 
前 文字 的 不 确定 性 就 越 小 。 


信息 箭 正 是 对 不 确定 性 的 衡量 ， 因 此 可 以 想象 信息 箭 能 直接 用 于 衡量 统 
计 语 言 模型 的 好 坏 。 当 然 ， 因 为 有 了 上 下 文 的 条 件 ， 所 以 对 高 阶 的 语言 
模型 ， 应 该 用 条 件 精 。 如 果 再 考虑 到 从 训练 语 料 和 真实 应 用 的 文本 中 得 
到 的 概率 函数 有 偏差 ， 就 需要 再 引入 相对 炳 的 概念 。 贾 里 尼克 从 条 件 炉 
和 相对 炉 出 发 , 定义 了 一 个 称 为 语言 模型 复杂 度 ( Perplexity ) 的 概念 ， 
直接 衡量 语言 模型 的 好 坏 。 复 杂 度 有 很 清晰 的 物理 含义 ， 它 是 在 给 定 上 
下 文 的 条 件 下 ,句子 中 每 个 位 置 平均 可 以 选择 的 单词 数量 。 一 个 模型 的 
复杂 度 越 小 ， 每 个 位 置 的 词 就 越 确定 ， 模 型 越 好 。 


李开复 博士 在 介绍 他 发 明 的 Sphinx 语音 识别 系统 的 论文 里 谈 到 ， 如 果 不 
用 任何 语言 模型 ( 即 零 元 语言 模型 ) 时 ， 复 杂 度 为 997， 也 就 是 说 句子 中 
每 个 位 置 有 997 个 可 能 的 单词 可 以 填 人 。 如 果 (二 元 ) 语言 模型 只 考虑 
前 后 词 的 搭配 不 考虑 搭配 的 概率 时 ， 复 杂 度 为 60。 虽 然 它 比 不 用 语言 模 
型 好 很 多 ， 但 是 和 考虑 了 搭配 概率 的 二 元 语言 模型 相 比 要 差 很 多 ， 因 为 
后 者 的 复杂 度 只 有 20。 


对 信息 论 有 兴趣 又 有 一 定数 学 基础 的 读者 ， 可 以 阅读 斯 坦 福 大 学 托 马 
斯 ， 科 弗 (Thomas Cover ) 教授 的 专著 《信息 论 基础 》( Elements of 
Information Theory ) 。 科 弗 教授 是 当今 最 权威 的 信息 论 专家 。 


4 小 结 


信息 箭 不 仅 是 对 信息 的 量化 度量 , 而 且 是 整个 信息 论 的 基础 。 它 对 于 通信 
数据 压缩 、 自 然 语言 处 理 都 有 很 强 的 指导 意义 。 信 息 粹 的 物理 含义 是 对 
一 个 信息 系统 不 确定 性 的 度量 , 在 这 一 点 上 , 它 和 热力 学 中 粹 的 概念 相同 ， 
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因为 后 者 是 对 于 一 个 系统 无 序 的 度量 。 这 说 明科 学 上 很 多 看 似 不 同 的 学 
科 之 间 也 会 有 很 强 的 相似 性 。 
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第 7 章 贾 里 尼克 和 现代 语言 处 理 


谨 以 本 章 纪念 弗 里 德里 克 ' 贾 里 尼克 博士 
1932 年 11 月 18 日 - 2010 年 9 月 14 日 


当 我 最 初 在 “谷歌 黑板 报 ” 上 发 表 “ 数 学 之 美 ”系列 文章 时 ， 为 了 引起 
读者 的 兴趣 ， 介 绍 了 一 些 成 功 地 将 数学 原理 应 用 于 自然 语言 处 理 领域 的 
大 师 和 学 者 。 但 我 的 根本 目的 不 是 为 了 单纯 讲 故事 , 更 不 是 为 了 聊 八 卦 ， 
而 是 为 了 给 有 志 于 信息 领域 研究 的 年 轻 人 介绍 一 批 大 师 和 成 功 者 ， 让 大 
家 学 习 到 他 们 的 思维 方法 ， 从 而 能 获得 他 们 那样 的 成 功 。 在 当今 物欲 横 
流 的 中 国 社会 ， 学 术 界 浮躁 ,年轻 人 浮躁 ， 少 数 有 着 远大 志向 的 年 轻 人 
实际 上 是 非常 孤独 的 。 这 很 像 罗 曼 ' 罗兰 描写 一 战 后 的 法 国 。 罗 曼 ' 罗 
兰 为 那些 追求 灵魂 高 尚 而 非 物 质 富裕 的 年 轻 人 写 下 了 《巨人 三 传 》:， 让 
大 家 呼吸 到 巨人 的 气息 。 今 天 ， 我 希望 把 一 批 大 师 介绍 给 有 志学 子 。 我 
们 从 弗 里 德里 克 “' 贾 里 尼克 开始 。 


按 顺序 读 到 这 一 章 的 读者 也 许 注意 到 了 ， 我 们 在 前 面 的 章节 中 多 次 提 到 
了 贾 里 尼克 这 个 名 字 。 事 实 上 ， 现 代 语 音 识别 和 自然 语言 处 理 确实 是 跟 
他 的 名 字 紧 密 联系 在 一 起 的 。 在 这 里 我 不 想 列举 他 的 贡献 ， 而 想 讲 一 讲 
他 作为 一 个 普通 人 的 故事 。 这 些 事 要 么 是 我 亲身 经 历 的 ， 要么 是 他 亲口 
对 我 讲 的 。 


1 

即 ( 贝 多 芬 传 》《 米 
开 钥 基 罗 传 ) 和 ( 托 
尔 斯 秦 传 》。 
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2 
捷克 中 部 距 首都 布 
拉 格 25 公 里 的 小 
城 。 


7.1 机 里 尼克 


1 早年 生活 


弗 里 德里 克 * 贾 里 尼克 ( Frederek Jelinek， 我 们 称 他 弗 莱 德 ) 出 生 于 捷 
克 克 拉 德 诺 ( Kladno ) * 一 个 富有 的 犹太 家 庭 ， 他 的 父亲 是 一 位 牙科 医生 。 
承袭 了 犹太 民族 的 传统 ， 弗 莱 德 的 父母 从 小 就 很 注意 他 的 教育 ， 并 且 打 
算 送 他 去 英国 的 公 学 ( 私立 学 校 ) 读书 。 为 了 教 他 学 好 德语 ， 还 专门 请 
了 一 位 德国 的 家 庭 女 教师 。 但 是 第 二 次 世界 大 战 完全 打 碎 了 他 们 的 梦想 。 
他 们 先是 被 从 家 中 赶 了 出 去 , 流浪 到 布拉格 。 他 的 父亲 死 在 了 集中 营 ， 
弗 莱 德 自己 成 天 在 街 上 玩 要 ， 完 全 荒废 了 学 业 。 二 战 后 ， 当 弗 莱 德 再 度 
回 到 学 校 时 ， 他 不 仅 要 从 小 学 补 起 ， 而 且 成 绩 一 塌 糊 涂 ， 全 部 是 D， 但 
是 很 快 他 就 赶 上 了 班 上 的 同学 。 不 过 ， 他 在 小 学 时 从 来 没有 得 过 A。 


1946 年 ， 捷 克 开始 了 前 苏联 似 的 集权 统治 。 弗 莱 德 的 母亲 吸取 了 他 父亲 
当年 的 教训 ,果断 决定 带 着 并 不 富有 的 全 家 移民 美国 。 弗 莱 德 后 来 讲 ， 
“我 母亲 做 了 一 个 非常 正确 的 决定 ( 指 离开 捷克 到 美国 一 事 ) ， 她 没有 
犯 我 和 父亲 同样 的 错误 。 当 年 我 父亲 已 经 把 所 有 的 (牙医 ) 设备 运 到 了 
英国 ,可 是 他 对 德国 人 还 是 抱 有 幻想 ,在 最 后 时 刻 留 了 下 来 。” 在 美国 ， 
贾 里 尼克 一 家 生活 非常 贫困 ， 全 家 基本 是 靠 母亲 做 点 心 赚 钱 为 生 ,- 弗 莱 
德 当时 只 有 十 几 岁 ， 就 进 工厂 打工 赚钱 补贴 家 用 。 显 然 ， 他 没有 (可 能 ) 
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天 天 呆 在 教室 和 家 里 ， 把 时 间 都 花 在 课本 上 ， 他 在 上 大 学 前 花 在 读书 上 
的 时 间 丽 怕 连 现在 一 般 好 学 生 的 一 半 都 不 到 。 当 然 , 我 自己 在 小 学 ( 文 
革 阶 段 ) 和 中 学 (上 个 世纪 80 年 代 ) 花 在 课本 上 的 时 间 也 不 到 现在 学 生 
的 一 半 。 所 以 我 们 都 不 赞同 中 小 学 生 只 会 上 学 考试 的 教育 方式 。 


每 当 弗 莱 德 和 我 谈 起 我 们 各 自 少年 时 的 教育 , 我 们 都 同意 这 样 几 个 观点 。 
首先 ， 小 学 生 和 中 学 生 其 实 没有 必要 花 那 么 多 时 间 读 书 ， 而 他 们 的 社会 
经 验 、 生 活 能 力 以 及 在 那 时 树立 起 的 志向 将 帮助 他 们 的 一 生 。 第 二 ， 中 
学 阶段 花 很 多 时 间 比 同伴 多 读 的 课程 ， 在 大 学 以 后 用 非常 短 的 时 间 就 可 
以 读 完 ， 因 为 在 大 学 阶段 ， 人 的 理解 力 要 强 得 多 。 举 个 例子 ， 在 中 学 需 
要 花 500 小 时 才能 学 会 的 内 容 ， 在 大 学 可 能 花 100 小 时 就 够 了 。 因 此 ， 
一 个 学 生 在 中 小 学 阶段 建立 的 那 一 点 点 优势 在 大 学 很 快 就 会 疼 失 殉 尽 。 
第 三 ,学习 ( 和 教育 ) 是 一 个 人 一 辈子 的 过 程 ， 很 多 中 学 成 绩 好 的 亚 裔 
学 生 进入 名 校 后 表现 明显 不 如 那些 因为 兴趣 而 读书 的 美国 同伴 ， 因 为 前 
者 不 断 读书 的 动力 不 足 。 第 四 ， 书 本 的 内 容 可 以 早 学 ， 也 可 以 晚 学 ， 但 
是 错过 了 成 长 阶段 却 是 无 法 补 回来 的 。 ( 因此 ， 少 年 班 的 做 法 不 足 取 。) 
现在 中 国 的 好 学 校 里 ， 恺 怕 百 分 之 九 十 九 的 孩子 在 读书 上 花 的 时 间 比 我 
当时 要 多 ， 更 比 页 里 尼克 要 多 得 多 ,但 是 这 些 孩 子 今天 可 能 有 百 分 之 
九 十 九 在 学 术 上 的 建树 不 如 我 ,更 不 如 页 里 尼克 。 这 实在 是 教育 的 误区 。 


贾 里 尼克 最 初 的 理想 在 他 十 来 岁 时 就 建立 起 来 了 ， 他 原本 想 成 为 一 个 律 
师 ， 为 他 父亲 那样 的 冤屈 者 辩护 ， 但 是 到 美国 后 ， 他 很 快意 识 到 他 那 浓 
厚 的 外 国 口音 将 使 他 在 法 庭 上 的 辩护 很 吃力 。 贾 里 尼克 的 第 二 个 理想 是 
成 为 医生 ， 也 算是 子 承 父 业 。 他 想 进 哈佛 大 学 医学 院 ， 但 他 无 力 承担 医 
学 院 8 年 高 昂 的 学 费 (4 年 的 本 科教 育 加 上 4 年 的 医学 院 教育 ) 。 而 恰恰 
此 时 麻 省 理工 学 院 给 了 他 一 份 〈 为 东欧 移民 设 的 ) 全 额 奖 学 金 。 贾 里 尼 
克 决 定 到 麻 省 理工 学 电机 工程 。 贾 里 尼克 的 理想 在 不 断 改变 ,但 是 他 通 
过 努力 走向 成 功 的 志向 一 直 没 有 改变 。 


在 那里 ， 他 遇 到 了 许多 世界 级 的 大 师 ， 包 括 信息 论 的 鼻祖 香农 博士 ， 和 
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语言 学 大 师 雅 格 布 森 ( Roman Jakobson ,他 提出 了 著名 的 通信 六 要 素 ? ) 。 
后 来 贾 里 尼克 的 太太 米兰 娜 从 捷克 来 到 美国 ， 在 哈佛 大 学 求学 ， 弗 莱 德 


雅 格 布 森 的 通信 模 


型 见 第 三 章 。 


4 


经 常 去 邻 校 哈佛 陪 着 太太 听课 。 在 那里 ， 他 经 常 去 听 伟 大 的 语言 学 家 乔 
姆 斯 基 ( Noam Chomsky ) 的 课 。 这 三 位 大 师 对 页 里 尼克 后 来 的 研究 方向 
一 利用 信息 论 解决 语言 问题 产生 了 重要 影响 。 我 一 直 认 为 ， 一 个 人 想 
要 在 自己 的 领域 做 到 世界 一 流 ， 他 的 周围 必须 有 非常 多 的 一 流 人 物 。 贾 
里 尼克 的 幸运 之 处 在 于 他 在 年 轻 的 时 候 得 到 了 这 些 大 师 的 指点 ， 以 后 在 
研究 境界 上 比 同龄 人 高 出 了 一 筹 。 


弗 莱 德 从 麻 省 理工 获得 博士 学 位 后 ， 在 哈佛 大 学 教 了 一 年 书 ， 然 后 到 康 
奈 尔 大 学 任教 ， 成 了 页 里 尼克 教授 。 他 之 所 以 选择 康 奈 尔 大 学 ， 是 因为 
找 工作 时 和 那里 的 一 位 语言 学 家 险 克 特 ( Charles Hackott ) 谈 得 颇 为 投机 。 
当时 那 位 教授 表示 愿意 和 页 里 尼克 在 利用 信息 论 解决 语言 问题 上 进行 合 
作 。 但 是 ， 等 贾 里 尼克 到 康 奈 尔 以 后 ， 那 位 教授 表示 对 语言 学 不 再 有 兴 
趣 而 转向 写 歌剧 了 。 贾 里 尼克 对 语言 学 家 的 坏 印象 从 此 开始 。 加 上 后 来 
他 在 IBM 时 发 现 语言 学 家 们 嘴 上 头头 是 道 ， 干 起 活 来 高 不 成 低 不 就 ， 对 
语言 学 家 从 此 深恶痛绝 。 他 甚至 说 : “我 每 开除 一 名 语言 学 家 ， 我 的 语 


“Every time 1 


nesus we ， 音 识别 系统 识别 率 就 会 提高 一 点 。”“* 这 句 话 后 来 在 业界 广 为 流 传 ， 为 每 
performance ofthe 一 个 搞 语 音 识 别 和 语言 处 理 的 人 所 熟知 。 


speech recognizer 


Boes up 


2 ”从 水 门 事件 到 莫 妮 卡 . 莱 温 斯 基 


声学 语 训 和 。 这 个 标题 不 是 我 为 了 哗众取宠 而 起 的 ， 而 是 页 里 尼克 在 1999 年 ICASSPs 


信号 处 理 大 会 ， 


做 的 大 会 报告 的 题目 “， 因 为 水 门 事件 发 生 的 时 间 (1972 年 ) 恰恰 是 统计 


International Con- 


frenceonAcoustc 语音 识别 和 自然 语言 处 理 开始 的 时 间 ， 而 因 莱 温 斯 基 事件 弹劾 克 林 上 顿 总 
Speech and Sienal 统 也 正好 发 生 于 当时 会 议 前 一 年 。 
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httpyicassp99 ”机 里 尼克 在 康 奈 尔 十 年 麻 一 剑 ， 潜 心 研究 信息 论 ， 终 于 悟 出 了 自然 语言 处 
asu.edu/technic ” 理 的 真 谤 。1972 年, 村 里 尼克 到 1BM 华 生 实验 室 做 学 术 休假 (Sabbatical ) ， 
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无 意 中 领导 了 语音 识别 实验 室 ， 两 年 后 他 在 康 奈 尔 和 IBM 之 间 选 择 了 留 
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在 IBM。 在 那里 , 机 里 尼克 组 建 的 研究 队伍 阵容 之 强大 可 谓 空 前 绝 后 ， 
其 中 包括 他 的 著名 搭档 波 尔 (L. Bahl ) ， 著 名 的 语音 识别 Dragon 公司 的 
创始 人 贝克 夫妇 ( Jim Baker & Janet Baker ) ,解决 最 大 粹 迭代 算法 的 达 
拉 皮 垂 ( S. Della Pietra 和 V. Della Pietra ) 挛 生 兄弟 ，BCJR 算法 的 另外 
两 个 共同 提出 者 库 克 (J. Cocke ) 和 拉 维 夫 (]. Raviv ) ， 以 及 第 一 个 提出 
机 器 翻译 统计 模型 的 布朗 ( Peter Brown ) 。 就 连 当年 资历 最 浅 的 小 字 辈 
人 物 拉 法 特 (John Laffety ) 现在 都 成 了 了 不 起 的 学 者 。 


上 个 世纪 70 年 代 的 IBM 有 点 像 上 个 世纪 90 年 代 的 微软 和 过 去 10 年 ( 施 
密 特 时 代 ) 的 Google, 给 予 杰出 科学 家 做 任何 有 兴趣 研究 的 自由 。 在 那 种 
宽松 的 环境 里 ， 贾 里 尼克 等 人 提出 了 统计 语音 识别 的 框架 结构 。 在 贾 里 
尼克 之 前 ， 科 学 家 们 把 语音 识别 问题 当 作 人 工 智能 和 模式 匹配 问题 。 而 
机 里 尼克 把 它 当 成 通信 问题 ,并 用 两 个 隐 含 马尔 可 夫 模 型 ( 声学 模型 和 语 
言 模型 ) 把 语音 识别 概括 得 清 清楚 楚 。 这 个 框架 结构 对 至 今 的 语音 和 语言 
处 理 有 着 深远 的 影响 ， 它 不 仅 从 根本 上 使 得 语音 识别 有 实用 的 可 能 ， 而 
且 竟 定 了 今天 自然 语言 处 理 的 基础 。 贾 里 尼克 本 人 后 来 也 因此 当选 美国 
工程 院 院 士 ， 并 且 被 Technology 杂志 评 为 20 世纪 100 名 发 明 家 之 一 。 


贾 里 尼克 的 前 辈 香 农 等 人 在 将 统计 的 方法 用 于 自然 语言 处 理 时 ， 遇 到 了 
两 个 不 可 逾越 的 障碍 : 缺乏 计算 能 力 强大 的 计算 机 和 大 量 可 以 用 于 统计 
的 机 读 文本 语 料 。 最 后 ， 他 的 前 辈 们 不 得 不 选择 放弃 。 在 上 个 世纪 70 年 
代 的 IBM， 虽 然 计算 机 的 计算 能 力 不 能 和 今天 相 比 ， 但 是 ， 已 经 可 以 做 
不 少 事情 了 。 贾 里 尼克 和 他 的 同事 需要 解决 的 问题 就 是 如 何 去 找 到 大 量 
的 机 读 语 料 。 这 在 今天 已 经 不 是 问题 的 问题 ， 在 当时 可 是 有 点 麻烦 ， 因 
为 当时 不 仅 没有 网 页 ， 连 出 版 物 大 多 都 没有 电子 版 的 记录 ， 即 使 有 ， 也 
在 不 同 的 出 版 商 手 里 ， 很 难 收集 全 。 好 在 当时 有 一 项 全 球 性 的 业务 是 通 
过 全 球 电信 网 连接 在 一 起 的 ， 就 是 电 传 。IBM 的 科学 家 最 初 就 是 通过 电 
传 业务 的 文本 开始 进行 自然 语言 处 理 研究 的 。 


回想 起 来 ， 基 于 统计 的 自然 语言 处 理 方法 由 在 上 个 世纪 70 年 代 的 IBM 
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先后 担任 IBM 和 
Google 主管 研究 的 
副 总 裁 。 


奠定 ,有 着 历史 的 必然 性 。 首先 , 只 有 1BM 有 足够 强大 的 计算 功能 和 数据 。 
其 次 ， 贾 里 尼克 (等 人 ) 已 经 在 这 个 领域 做 了 十 多 年 的 理论 研究 ， 且 当 
时 正在 IBM 工作 。 第 三 ， 上 个 世纪 70 年 代 是 小 沃 森 将 IBM 的 业务 发 展 
到 顶点 的 时 代 ，IBM 对 基础 研究 的 投入 强度 非常 大 。 如 果 当 时 的 年 轻 人 
能 看 到 这 几 点 ， 又 有 足够 好 的 数学 基础 ( 这 是 当时 贾 里 尼克 等 人 挑选 科 
学 家 的 必要 条 件 ) ， 应 该 加 入 IBM ， 这 样 一 定 是 前 途 无 量 。 


贾 里 尼克 和 波 尔 、 库 克 以 及 拉 维 夫 对 人 类 的 另 一 大 贡献 是 BCJR 算法 ， 这 
是 今天 数字 通信 中 应 用 最 广 的 两 个 算法 之 一 ( 另 一 个 是 维特 比 算法 ) 。 有 
趣 的 是 ， 这 个 算法 发 明了 20 年 后 ， 才 得 以 广泛 应 用 。IBM 于 是 把 它 列 为 
IBM 有 史 以 来 对 人 类 的 最 大 贡献 之 一 ,并 贴 在 加 州 阿 莫 顿 实验 室 ( Amaden 
Research Labs ) 墙 上 。 遗 憾 的 是 BCJR 四 个 人 已 经 全 部 离开 IBM， 有 一 
次 IBM 的 通信 部 门 需要 用 这 个 算法 ， 还 得 从 斯 坦 福 大 学 请 一 位 专家 去 讲 
解 ， 这 位 专家 看 到 IBM 橱窗 里 的 成 就 榜 ， 感 慨 万 分 。 


1999 年 在 美国 凤凰 城 召开 的 ICASSP 年 会 上 ， 贾 里 尼克 以 “从 水 门 事件 
到 英 妮 卡 . 莱 温 斯 基 ” 为 题 做 了 大 会 报告 ， 总 结 了 语音 识别 领域 30 年 的 
成 就 。 重 点 回顾 了 当年 IBM 的 工作 , 以 及 后 来 约翰 霍 普 金 斯 大 学 的 工作 ， 
也 包括 我 的 工作 。 


很 多 年 后 我 和 阿尔 弗 雷 德 斯 伯 格 特 (Alfred Spector ) "谈论 为 什么 当 
初 是 没有 什么 语音 识别 基础 的 IBM 而 不 是 在 这 个 领域 有 很 长 研究 时 间 的 
AT&T 贝尔 实验 室 或 者 卡 内 基 - 梅 隆 大 学 提出 统计 语音 识别 和 语言 处 理 。 
斯 伯 格 特 认为 这 是 因为 没有 基础 的 IBM 反而 不 受 条 条 框框 的 束缚 。 这 是 
一 个 方面 ， 而 我 强调 的 则 是 ， 大 多 数 时 候 ， 很 多 的 历史 偶然 性 背后 有 着 
它 必 然 的 原因 ， 统 计 自 然 语 言 处 理 诞生 于 IBM 看 似 有 些 偶然 ， 但 是 当时 
只 有 IBM 有 这 样 的 计算 能 力 ， 又 有 物质 条 件 同 时 聚集 起 一 大 批 世 界 土 最 
聪明 的 头脑 。 
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3 一 位 老人 的 奇迹 


读 过 《浪潮 之 识 》 的 读者 可 能 还 记得 ， 上 个 世纪 80 年 代 末 到 90 年 代 初 ， 
是 IBM 最 艰难 的 时 期 ， 也 是 郭 士 纳 大 量 削 减 科研 经 费 的 时 期 。 不 幸 的 是 ， 
语音 识别 和 自然 语言 处 理 的 研究 也 在 郭 士 纳 削减 的 名 单 里 。 贾 里 尼克 和 
IBM 一 批 最 杰出 的 科学 家 在 上 个 世纪 90 年 代 初 离开 了 IBM， 他 们 中 的 
大 多 数 在 华尔街 取得 了 巨大 的 成 功 ， 每 个 人 都 成 为 了 千 万 ( 可 能 有 的 是 
亿 万 ) 富翁 。 贾 里 尼克 已 经 到 了 退休 的 年 龄 ， 他 的 财富 足以 让 他 每 舒服 
服 地 安 度 晚年 。 但 他 是 一 个 一 辈子 都 闲 不 下 来 的 人 , 而 且 书 生气 很 浓 ， 
于 是 1994 年 去 约翰 ' 直 普 金 斯 大 学 建立 了 世界 著名 的 CLSP ( Center for 
Language and Speech Processsing ) 实验 室 。 


在 贾 里 尼克 到 约翰 ' 霍 普 金 斯 大 学 以 前 ， 这 所 以 医学 院 闻 名 于 世 的 大 学 
在 工程 领域 学 科 趋 于 老化 ， 早 已 经 没有 了 二 战 前 可 以 和 麻 省 理工 学 院 或 
者 加 州 理工 学 院 比 肩 的 可 能 ， 也 完全 没有 语音 识别 和 自然 语言 处 理 这 样 
的 新 兴学 科 。 贾 里 尼克 从 头 开始 ， 在 短 短 两 三 年 内 就 将 CLSP 变 成 世界 
一 流 的 研究 中 心 。 他 主要 做 了 两 件 大 事 ,两 件 小 事 。 两 件 大 事 是 , 首先， 
从 美国 政府 主管 研究 的 部 门 那 里 申请 到 了 很 多 研究 经 费 , 然后 , 每 年 夏天 ， 
他 用 一 部 分 经 费 ， 邀 请 世界 上 20-30 名 顶级 的 科学 家 和 学 生 到 CLSP 一 
起 工作 , 使 得 CLSP 成 为 世界 上 语音 和 语言 处 理 的 中 心 之 一 。 两 件 小 事 是 ， 
首先 , 他 招募 了 一 批 当时 很 有 潜力 的 年 轻 学 者 ， 比 如 今天 在 自然 语言 处 理 
方面 颇 负 盛名 的 雅 让 斯 基 和 今天 eBay 的 CTO 布莱尔 。 第 二 ， 他 利用 自 
己 的 影响 力 , 在 暑期 把 他 的 学 生 派 到 世界 上 最 好 的 公司 去 实习 , 通过 这 些 
学 生 的 优异 表现 ， 树 立 起 CLSP 在 培养 人 才 方 面 的 声誉 。10 多 年 后 ,由 
于 国家 安全 的 需要 ， 美 国政 府 决定 在 一 所 一 流 大 学 里 建立 一 个 信息 处 理 
的 国家 级 研究 中 心 ( Center of Excellence ) ， 贾 里 尼克 领导 的 约翰 ， 坷 
普 金 斯 大 学 的 科学 家 们 ， 在 竞标 中 击败 他 们 在 学 术 界 的 老 对 手 麻 省 理工 
学 院 和 卡 内 基 - 梅 隆 大 学 ， 将 这 个 中 心 落户 到 约翰 霍 普 金 斯 大 学 ， 确 
立 了 他 在 这 个 学 术 领 域 的 世界 级 领导 地 位 。 
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巴菲特 每 年 和 一 位 
投资 人 共 进 晚餐 ， 
取决 于 哪 位 投资 人 
出 价 高 。 这 个 出 价 
由 巴菲特 捐 给 束 善 
机 构 。 


机 里 尼克 治学 极为 严谨 , 对 学 生 要 求 也 极 严 。 他 淘汰 学 生 的 比例 极 高 ， 
即使 留 下 来 的 ， 毕 业 时 间 也 极 长 。 但 是 ， 另 一 方面 ， 贾 里 尼克 也 千 方 百 
计 利 用 自己 的 影响 力 为 学 生 的 学 习 和 事业 提供 便利 。 贾 里 尼克 为 组 里 的 
每 一 位 学 生 提供 从 进 组 第 一 天 到 离开 组 之 前 最 后 一 天 全 部 的 学 费 和 生活 
费 。 他 还 为 每 一 位 学 生 联 系 实习 机 会 ， 并 保证 每 位 学 生 在 博士 生 阶 段 至 
少 在 大 公司 实习 一 次 。 从 他 那里 拿 到 博士 学 位 的 学 生 ， 全 部 任职 于 著名 
实验 室 ， 比 如 IBM、 微 软 、AT&T 和 Google 的 实验 室 。 为 了 提高 外 籍 学 
生 的 英语 水 平 ， 贾 里 尼克 用 自己 的 经 费 为 他 们 请 私人 英语 教师 。 


贾 里 尼克 教授 桃李 满 天 下 ， 这 里 面包 括 他 的 学 生 、 过 去 的 下 属 以 及 在 学 
术 界 众多 沿袭 他 的 研究 方法 的 晚辈 ， 比 如 Google 研究 院 的 院 长 诺 威 格 
(Peter Norvig ) 和 费尔南多 ' 皮 耶 尔 ( Fernando Pereira ) ， 这 些 人 分 
布 在 世界 上 主要 的 大 学 和 公司 的 研究 所 ， 渐 渐 地 形成 了 一 个 学 派 。 而 页 
里 尼克 是 这 个 学 派 的 精神 领袖 。 


贾 里 尼克 教授 在 学 术 上 给 我 最 大 的 帮助 就 是 提高 了 我 在 学 术 上 的 境界 。 
他 告诉 我 最 多 的 是 : 什么 方法 不 好 。 在 这 一 点 上 他 与 股神 巴菲特 给 和 他 
吃饭 的 投资 人 “的 建议 有 异曲同工 之 处 。 巴 菲 特 和 那些 投资 人 讲 ， 你 们 都 
非常 聪明 , 不 需要 我 告诉 你 们 做 什么 ,我 只 需要 告诉 你 们 不 要 去 做 什么 ( 这 
样 可 以 少 犯 很 多 错误 ) ， 这 些 不 要 做 的 事情 ， 是 巴菲特 从 一 生 的 经 验 教 
训 中 得 到 的 。 贾 里 尼克 会 在 第 一 时 间 告 诉 我 什么 方法 不 好 ， 因 为 在 IBM 
时 他 和 他 的 同事 吃 过 这 方面 的 亏 。 至 于 什么 方法 好 , 他 相信 我 比 他 强 ， 
自己 能 找到 。 所 以 他 节省 了 我 很 多 可 能 做 无 用 功 的 时 间 。 同 时 ， 他 考虑 
问题 的 方法 让 我 终身 受益 。 


机 里 尼克 生活 俭朴 ,一 辆 老式 丰田 车 开 了 20 多 年 ， 比 组 里 学 生 的 车 都 破 。 
他 每 年 都 邀请 组 里 的 学 生 和 教授 到 家 里 做 客 ， 很 多 已 毕业 的 学 生 也 专程 
赶 来 聚会 。 在 那里 ， 他 不 再 谈论 学 术 问题 ， 而 会 谈 些 巩俐 的 电影 (他 太 
太 是 哥伦比亚 大 学 电影 专业 的 教授 ) ,或 是 一 些 科学 家 的 八卦 ， 比 如 著 
名 的 信息 论 专 家 、 斯 坦 福 大 学 的 科 弗 (Thomas Cover ) 教授 如 何 被 拉 斯 
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韦 加 斯 的 赌 馆 定 为 不 受 欢 迎 的 人 ， 等 等 。 但 是 他 家 里 聚会 上 的 食物 实在 
难 吃 ， 无 非 是 些 生 胡 萝卜 和 芹菜 。 后 来 机 里 尼克 掏 钱 让 系 里 另 一 个 教授 
米 勒 承办 聚会 ， 米 勤 教授 每 次 都 请 专业 大 厨 在 家 做 出 极 丰 盛 的 晚宴 ， 并 
准备 许多 美酒 ， 从 此 这 种 聚会 就 转移 到 米 勒 家 了 。 


页 里 尼克 的 太太 米兰 娜 是 哥伦比亚 大 学 电影 领域 的 教授 ， 可 能 是 受 他 太 
太 影 响 ， 他 很 早 就 开始 观看 中 国电 影 。 中 国 早期 走向 世界 的 电影 ， 女 
主角 基本 上 都 是 巩俐 ， 所 以 他 很 奇怪 为 什么 这 么 大 的 国家 只 有 这 人 么 一 
位 女 演员 。 此 外 ， 贾 里 尼克 早期 对 中 国 的 了 解 就 是 清华 大 学 和 青岛 啤酒 
了 。 他 多 次 把 这 两 个 名 字 搞 混 ， 有 两 次 被 香港 科技 大 学 的 冯 雁 ( Pascale 
Fung ) 教授 抓 住 这 个 错误 。 


贾 里 尼克 说 话 心直口快 ,不 留 余 地 ,在 他 面前 谈论 学 术 一 定 要 十 分 严谨 , 否 
则 很 容易 被 他 抓 住 关 子 。 除 了 刚才 提 到 的 对 语言 学 家 略 有 偏见 的 评论 , 他 
对 许多 世界 级 的 大 师 都 有 过 很 多 “刻薄 ”但 又 实事 求 是 的 评论 ， 这 些 评 
论 在 业界 广 为 流 传 。 当 然 ， 当 一 个 人 真正 做 出 成 绩 时 ， 贾 里 尼克 还 是 毫 
不 音 惜 他 的 赞美 之 词 的 。1999 年 ， 我 在 欧洲 语言 大 会 Eurospeech 上 获 
得 了 最 佳 论 文 奖 , 贾 里 尼克 在 实验 室 里 一 见 到 我 就 讲 “ 我 们 以 你 为 荣 "( We 
are proud of you. ) ， 并 且 后 来 多 次 提 及 此 事 。 贾 里 尼克 在 40 多 年 的 学 
术 生 涯 中 居然 没有 得 罪 太 多 人 ， 可 以 说 是 一 个 奇迹 。 我 想 这 除了 他 的 成 
就 之 外 ， 还 因为 他 是 一 个 公正 的 人 。 


前 面 讲 过 , 贾 里 尼克 是 一 个 闲 不 住 的 人 。 我 经 常 看 到 他 周末 到 实验 室 加 班 。 
他 在 70 多 岁 以 后 依然 头脑 敏锐 ， 并 且 每 天 按时 上 班 。2010 年 9 月 14 日 ， 
他 像 往常 一 样 来 到 办 公 室 ， 但 不 幸 的 是 ， 因 为 心脏 病 发 作 在 办 公 桌 前 过 
世 了 。 我 听 到 这 个 消息 时 又 悲伤 又 震惊 ， 因 为 几 个 月 前 我 去 约翰 霍 普 
金 斯 大 学 看 他 时 ， 他 还 是 好 好 的 。 他 在 别人 退休 、 安 度 晚年 的 年 龄 开始 
创立 当今 世界 学 术 界 最 大 的 语音 和 语言 处 理 中 心 ， 并 且 工 作 到 了 生命 的 
最 后 一 天 。 很 多 年 前 他 和 我 谈论 学 习 是 一 辈子 的 事情 ， 他 确实 做 到 了 。 
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9 
http://enB.jhu- 
edu/wsel/Fred_ 
Jelinek/memory/ 
jelinek-fellowsh 
ip 


由 于 他 有 大 量 的 学 生 和 朋友 在 Google 工作 ,这些 人 和 Google 公司 为 约 


和 翰 ' 霍 普 金 斯 大 学 捐赠 了 一 笔 钱 ， 用 于 创立 贾 里 尼克 奖学金 。 有 志 从 事 
这 个 领域 研究 的 大 学 生 ， 可 以 去 申请 这 个 奖学金 "。 
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在 接 下 来 的 几 章 里 ， 我 们 会 介绍 与 搜索 有 关 的 技术 。 几 年 前 ， 当 这 个 系 
列 在 谷歌 黑板 报 上 登 出 时 ， 很 多 读者 都 很 想 通 过 它 知道 Google 的 独门 搜 
索 技术 ， 对 我 只 讲述 简单 的 原理 很 失望 。 这 次 ， 我 可 能 还 是 要 让 一 些 读 
者 失望 了 ， 因 为 我 依然 不 会 讲 得 很 深 。 主 要 有 这 样 几 个 原因 ， 首 先 我 希 
望 这 本 书 的 读者 是 大 众 , 而 不 仅仅 是 搜索 引擎 公司 的 工程 师 。 对 于 前 者 ， 
帮助 他 们 了 解数 学 在 工程 中 的 作用 ， 远 比 了 解 与 他 们 的 工作 无 关 的 算法 
要 有 意义 得 多 。 第 二 ， 技 术 分 为 术 和 道 两 种 ， 具 体 的 做 事 方法 是 术 ， 做 
事 的 原理 和 原则 是 道 。 这 本 书 的 目的 是 讲 道 而 不 是 术 。 很 多 具体 的 搜索 
技术 很 快 会 从 独门 绝技 到 普及 , 再 到 落伍 , 追求 术 的 人 一 辈子 工作 很 辛苦 。 
只 有 掌握 了 搜索 的 本 质 和 精 骨 才 能 永远 游 胃 有 余 。 第 三 ， 很 多 希望 我 介 
绍 “ 术 ”的 人 是 希望 走 捷径 。 但 是 真正 做 好 一 件 事 没有 捷径 ， 需 要 一 万 
小 时 的 专业 训练 和 努力 。 做 好 搜索 ， 最 基本 的 要 求 是 每 天 分 析 10-20 个 
不 好 的 搜索 结果 ， 累 积 一 段 时 间 才 有 感觉 。 我 在 Google 做 搜索 质量 的 时 
候 每 天 分 析 的 搜索 数量 远 不 止 这 个 ，Google 的 搜索 质量 第 一 技术 负责 人 
阿 米 特 ， 辛 格 ( Amit Singhal ) 今天 依然 经 常 分 析 这 些 不 好 的 结果 。 但 是 ， 
很 多 做 搜索 的 工程 师 ( 美国 的 、 中 国 的 都 有 ) 做 不 到 这 一 点 ， 总 是 希望 
一 个 算法 、 一 个 模型 就 能 毕 其 功 于 一 役 ， 这 是 不 现实 的 。 
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现在 我 们 回 到 搜索 引擎 这 个 话题 。 搜 索引 擎 的 原理 其 实 非常 简单 ， 建 立 
一 个 搜索 引擎 大 致 需要 做 这 样 几 件 事 : 自动 下 载 尽 可 能 多 的 网 页 ， 建立 
快速 有 效 的 索引 ; 根据 相关 性 对 网 页 进行 公平 准确 的 排序 。 所 以 我 到 腾 
讯 以 后 ， 就 把 搜 搜 所 有 的 搜索 产品 提炼 成 下 载 、 索 引 和 排序 这 三 种 基本 
服务 。 这 就 是 搜索 的 “ 道 ”。 所 有 的 搜索 服务 都 可 以 在 这 三 个 基本 服务 
的 基础 上 很 快 实现 ， 这 就 是 搜索 的 “ 术 ”。 


在 腾讯 内 部 升级 搜索 引擎 时 ， 首 先 要 改进 和 统一 的 就 是 所 有 搜索 业务 的 
索引 ， 否 则 提高 搜索 质量 就 如 同 浮 沙 建 塔 一 样 不 稳固 。 同 样 我 们 在 这 本 
书 中 介绍 搜索 ， 也 从 索引 出 发 ， 因 为 它 最 基础 ， 也 最 重要 。 


1 布尔 代数 


世界 上 不 可 能 有 比 二 进 制 更 简单 的 计数 方法 了 , 它 只 有 两 个 数字 : 0 和 1。 
从 单纯 数学 的 角度 讲 ， 它 甚至 比 我 们 的 十 进 制 更 合理 。 但 是 我 们 人 有 十 
个 手指 ， 使 用 起 来 比 二 进 制 ( 或 者 八进制 ) 方便 得 多 ， 所 以 在 进化 和 文 
明 发 展 过 程 中 人 类 采用 了 十 进 制 。 二 进 制 的 历史 其 实 也 很 早 ， 中 国 古 代 
的 阴阳 学 说 可 以 认为 是 最 早 二 进 制 的 雏形 。 而 二 进 制作 为 一 个 计数 系统 ， 
公元 前 2-5 世纪 时 由 印度 学 者 完成 ， 但 是 他 们 没有 使 用 0 和 1 计数 。 到 
17 世纪 ， 德 国 伟大 的 数学 家 莱 布 尼 兹 ( Gottfried Leibniz ) 把 它 完善 ， 并 
且 用 0 和 1 表示 它 的 两 个 数字 ， 成 为 我 们 今天 使 用 的 二 进 制 。 二 进 制 除 
了 是 一 种 计数 的 方式 外 ， 它 还 可 以 表示 逻辑 的 “是 ”与 “ 非 ”。 这 第 二 
个 特性 在 索引 中 非常 有 用 。 布 尔 运算 是 针对 二 进 制 ， 尤 其 是 二 进 制 第 二 
个 特性 的 运算 ， 它 很 简单 ， 可 能 没有 比 布尔 运算 更 简单 的 运算 了 。 尽 管 
今天 每 个 搜索 引擎 都 宣称 自己 如 何 聪明 、 多 么 智能 ( 这 个 词 非常 忽悠 人 ) ， 
其 实 从 根本 上 讲 都 没有 逃 出 布尔 运算 的 框框 。 


布尔 (George Boole ) 是 19 世纪 英国 的 一 位 中 学 数学 老师 ， 还 创办 
过 一 所 中 学 。 后 来 在 爱尔兰 科 克 ( Cork ) 的 一 所 学 院 当 教授 。 生 前 没 
有 人 认为 他 是 数学 家 ,虽然 他 曾经 在 剑桥 大 学 数学 杂志 (Cambriage 
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Mathematical Journal ) 上 发 表 过 论文 。 ( 英国 另 一 位 生前 没有 被 公认 
为 科学 家 的 是 著名 物理 学 家 焦耳 ， 虽 然 他 生前 已 经 是 英国 皇家 科学 院 院 
士 ， 但 是 他 的 公认 身份 是 啤酒 商 。 ) 布尔 在 工作 之 余 ， 喜 欢 阅读 数学 论 
著 ， 思 考 数学 问题 。1854 年 ， 布 尔 的 《思维 规律 》 ( Am Investigation of 
the Laws of Thought, on which are founded the Mathematical Theories of 
Logic and Probabilities ) 一 书 ， 第 一 次 向 人 们 展示 了 如 何 用 数学 的 方法 解 
决 逻辑 问题 。 在 此 之 前 , 人 们 普遍 的 认识 是 数学 和 有 逻辑 是 两 个 不 同 的 学 科 ， 
今天 联合 国教 科 文 组 织 依然 把 它们 严格 分 开 。 


布尔 代数 简单 得 不 能 再 简单 了 。 运 算 的 元 素 只 有 两 个 : 1 (TRUE, 真 ) 
和 0 (FALSE， 假 ) 。 基 本 的 运算 只 有 “与 ”(AND ) 、 “或 ”(OR) 
和 “ 非 ”(NOT ) 三 种 ( 后 来 发 现 ， 这 三 种 运算 都 可 以 转换 成 “与 
非 ” AND-NOT 一 种 运算 ) 。 全 部 运算 只 用 下 列 几 张 真 值 表 就 能 完全 描 
述 清楚 。 


表 8.1 与 运算 真 值 表 


表 8.1 说 明 ， 如 果 AND 运算 的 两 个 元 素 有 一 个 是 0， 则 运算 结果 总 是 0。 
如 果 两 个 元 素 都 是 1， 运 算 结 果 是 1。 例 如 ，“ 太 阳 从 西边 升 起 ”这 个 判 
断 是 假 的 (0) ，“ 水 可 以 流动 ”这 个 判断 是 真 的 (1 ) ， 那 么 ， “太阳 
从 西边 升 起 并 且 水 可 以 流动 ”就 是 假 的 (0) 。 


表 8.2 或 运算 真 值 表 


OR 1 0 


表 8.2 说 明 ， 如 果 OR 运算 的 两 个 元 素 有 一 个 是 1， 则 运算 结果 总 是 1。 
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如 果 两 个 元 素 都 是 0， 则 运算 结果 是 0。 比 如 说 ，“ 张 三 是 比赛 第 一 名 ” 
这 个 结论 是 假 的 (0) ，“ 李 四 是 比赛 第 一 名 ”是 真 的 (1) ,那么 “ 张 
三 或 者 李 四 是 第 一 名 ”就 是 真 的 (1 ) 。 


表 8.3” 非 运算 真 值 表 


4 0 
0 革 


表 8.3 说 明 ，NOT 运算 把 1 变 成 0， 把 0 变 成 1。 比 如， 如 果 “ 象 牙 是 白 
的 ”是 真 的 (1) ,那么 “象牙 不 是 白 的 ”必定 是 假 的 (0) 。 


读者 也 许 会 问 这 么 简单 的 理论 能 解决 什么 实际 问题 。 和 布尔 同时 代 的 数 
学 家 们 也 有 同样 的 疑问 。 事 实 上 ， 在 布尔 代数 提出 后 80 多 年 里 ， 它 确实 
没有 什么 像样 的 应 用 ， 直 到 1938 年 香农 在 他 的 硕士 论文 中 指出 用 布尔 代 
数 来 实现 开关 电路 ， 才 使 得 布尔 代数 成 为 数字 电路 的 基础 。 所 有 的 数学 
和 逻辑 运算 ， 加 、 减 、 乘 、 除 、 乘 方 、 开 方 等 等 ， 全 都 能 转换 成 二 值 的 
布尔 运算 。 我 们 在 第 一 章 讲 到 ， 数 学 的 发 展 实 际 上 是 不 断 地 抽象 和 概括 
的 过 程 ， 这 些 抽象 了 的 方法 看 似 离 生活 越 来 越 远 ， 但 是 它们 最 终 能 找到 
适用 的 地 方 ， 布 尔 代数 便 是 如 此 。 


现在 看 看 文献 检索 和 布尔 运算 的 关系 。 对 于 一 个 用 户 输入 的 关键 词 ， 搜 
索引 擎 要 判断 每 篇 文献 是 否 含有 这 个 关键 词 ， 如 果 一 篇 文献 含有 它 ， 我 
们 相应 地 给 这 篇 文献 一 个 逻辑 值 一 真 (TRUE 或 1) ， 否则， 给 一 个 
逻辑 值 一 假 (FALSE 或 0) 。 比 如 要 找 有 关 原 子 能 应 用 的 文献 ， 但 并 
不 想 知道 如 何 造 原 子弹 。 可 以 这 样 写 一 个 查询 语句 “原子 能 AND 应 用 
AND (NOT 原子 弹 )”， 表 示 符 合 要 求 的 文献 必须 同时 满足 三 个 条 件 ， 


包含 原子 能 ， 包 含 应 用 ， 不 包含 原子 弹 


一 篇 文献 对 于 上 面 每 一 个 条 件 ， 都 有 一 个 TRUE 或 者 FALSE 的 答案 。 根 
据 上 述 真 值 表 就 能 算出 每 篇 文献 是 否 是 要 找 的 。 这 样 逻 辑 推理 和 计算 就 
合 二 为 一 了 。 
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布尔 代数 对 于 数学 的 意义 等 同 于 量子 力学 对 于 物理 学 的 意义 ， 它 们 将 我 
们 对 世界 的 认识 从 连续 状态 扩展 到 离散 状态 。 在 布尔 代数 的 “世界 ”里 ， 
万 物 都 是 可 以 量子 化 的 ， 从 连续 的 变 成 一 个 个 的 , 它们 的 运算 “与 、 或 、 
非 ” 也 就 和 传统 的 代数 运算 完全 不 同 了 。 现 代 物 理 的 研究 成 果 表 明 ， 我 
们 的 世界 实 实在 在 是 量子 化 的 而 不 是 连续 的 。 我 们 的 宇宙 的 基本 粒子 数 
目 是 有 限 的 '， 而 且 远 比 古 高 尔 ( 10”) 要 小 得 多 。 


2 索引 


大 部 分 使 用 搜索 引擎 的 人 都 会 吃惊 为 什么 它 能 在 零点 零 几 秒 钟 找 到 成 千 
上 万 甚至 上 亿 的 搜索 结果 。 显 然 ， 如 果 是 扫描 所 有 的 文本 ， 计 算 机 扫 
描 的 速度 再 快 也 不 可 能 做 到 这 一 点 ， 这 里 面 一 定 暗藏 技巧 。 这 个 技巧 
就 是 建 索引 。 这 就 如 同 我 们 科技 读物 背后 的 索引 ， 或 者 图 书馆 的 索引 。 
Google 有 一 道 面 试 产品 经 理 的 考题 ， 就 是 “如 何 向 你 的 奶奶 解释 搜索 引 
擎 ”。 大 部 分 候选 人 都 是 试图 从 互联 网 、 搜 索 等 等 产品 的 技术 层面 给 出 
解释 ， 这 道 题 基本 通 不 过 。 好 的 回答 是 拿 图 书馆 的 索引 卡片 做 类 比 。 每 
个 网 站 就 像 图 书馆 里 的 一 本 书 , 我 们 不 可 能 在 图 书馆 书架 上 一 本 本 地 找 ， 
而 是 要 通过 搜索 卡片 找到 它 的 位 置 ， 然 后 直接 去 书架 上 拿 。 


图 书馆 的 索引 卡片 当然 无 法 进行 复杂 的 逻辑 运算 。 但 是 ， 当 信息 检索 进 
和 计算 机 时 代 后 ， 图 书 的 索引 便 不 再 是 卡片 ， 而 是 基于 数据 库 的 。 数 据 
库 的 查询 语句 ( SQL ) 支持 各 种 复杂 的 逻辑 组 合 ， 但 是 背后 的 基本 原理 
是 基于 布尔 运算 的 ， 至 今 如 此 。 早 期 的 文献 检索 查询 系统 ， 严 格 要 求 查 
询 语句 符合 布尔 运算 。 相 比 之 下 ， 今 天 的 搜索 引擎 要 聪明 得 多 ， 它 会 自 
动 把 用 户 的 查询 语句 转换 成 布尔 运算 的 算式 。 但 是 基本 的 原理 没有 什么 
不 同 。 


最 简单 的 索引 的 结构 是 用 一 个 很 长 的 二 进 制 数 表示 一 个 关键 字 是 否 出 现 
在 每 篇 文献 中 。 有 多 少 篇 文献 ， 就 有 多 少 位 数 ， 每 一 位 对 应 一 篇 文献 ，1 
代表 相应 的 文献 有 这 个 关键 字 ，0 代表 没有 。 比 如 关键 字 “ 原 子 能 ”对 应 


1 

据 http://www. 
universetoday 
com/36302/atoms- 
in-the-universe/ 估 
计 宇宙 中 原子 的 数 
量 是 10*-102， 如 
果 按 照 最 小 的 基本 
粒子 ( 村 克 、 电 子 、 

光子 等 ) 统计 ， 再 
考虑 到 暗物质 和 暗 
能 量 ， 折 算 下 来 不 
应 该 超过 10*。 
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2 
实际 数量 比 这 个 多 。 


的 二 进 制 数 是 0100100011000001...， 表 示 第 二 、 第 五 、 第 九 、 第 十 、 第 
十 六 篇 文献 包含 这 个 关键 字 。 上 述 过 程 其 实 就 是 将 一 篇 篇 千差万别 的 文 
本 进行 量子 化 的 过 程 。 注 意 , 这 个 二 进 制 数 非常 之 长 。 同样 , 假定 “应 用 ” 
对 应 的 二 进 制 数 是 0010100110000001..., 那么 要 找到 同时 包含 “原子 能 ” 
和 “应 用 ”的 文献 时 ， 只 要 将 这 两 个 二 进 制 数 进行 布尔 运算 AND。 根 据 
上 面 的 真 值 表 , 我 们 知道 运算 结果 是 0000100000000001..., 表示 第 五 篇 、 
第 十 六 篇 文献 满足 要 求 。 


注意 ， 计 算 机 做 布尔 运算 是 非常 非常 快 的 。 现 在 最 便宜 的 微机 都 可 以 在 
一 个 指令 周期 进行 32 位 布尔 运算 ， 一 秒 钟 进 行 数 十 亿 次 以 上 。 当 然 ， 巾 
于 这 些 二 进 制 数 中 的 绝 大 部 分 位 数 都 是 零 ， 只 需要 记录 那些 等 于 1 的 位 
数 即 可 。 于 是 ， 搜 索引 擎 的 索引 就 变 成 了 一 张大 表 : 表 的 每 一 行 对 应 一 
个 关键 词 ， 而 每 一 个 关键 词 后 面 跟着 一 组 数字 ， 是 包含 该 关键 词 的 文献 
序号 。 


对 于 互联 网 的 搜索 引擎 来 讲 ， 每 一 个 网 页 就 是 一 个 文献 。 互 联网 的 网 页 
数量 是 巨大 的 , 网 络 中 所 用 的 词 也 非常 非常 多 。 因此 , 这 个 索引 是 巨大 的 ， 
在 万 亿 字 节 这 个 量 级 。 早 期 的 搜索 引擎 ( 比如 AltaVista 以 前 的 所 有 搜索 
引擎 ) ， 由 于 受 计算 机 速度 和 容量 的 限制 ， 只 能 对 重要 的 关键 的 主题 词 
建立 索引 。 至 今 很 多 学 术 杂 志 还 要 求 作者 提供 3-5 个 关键 词 。 这 样 所 有 
不 常见 的 词 和 太 常 见 的 虚词 就 找 不 到 了 。 现 在 ， 为 了 保证 对 任何 搜索 都 
能 提供 相关 的 网 页 , 主要 的 搜索 引擎 都 是 对 所 有 的 词 进行 索引 。 但 是 ， 
这 在 工程 上 却 是 一 件 很 有 挑战 性 的 事情 。 


假如 互联 网 上 有 100 亿 ”( 10”) 个 有 意义 的 网 页 ， 而 词汇 表 的 大 小 是 30 
万 (也 是 保守 估计 的 数字 ) , 那么 这 个 索引 的 大 小 至 少 是 100 亿 x30 万 = 
3 000 万 亿 。 考 虑 到 大 多 数 词 只 出 现在 一 部 分 文本 中 , 压缩 比 为 100:1， 也 
是 30 万 亿 的 量 级 。 为 了 网 页 排名 方便 , 索引 中 还 需 存 有 大 量 附 加 信息 , 诸 
如 每 个 词 出 现 的 位 置 、 次 数 等 等 。 因此 , 整个 索引 就 变 得 非常 之 大 , 显然， 
这 不 是 一 台 服 务 器 的 内 存 能 够 存 下 的 。 所 以 ， 这 些 索引 需要 通过 分 布 式 
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的 方式 存储 到 不 同 的 服务 器 上 。 普 遍 的 做 法 就 是 根据 网 页 的 序号 将 索引 
分 成 很 多 份 ( Shards ), 分 别 存储 在 不 同 的 服务 器 中 。 每 当 接受 一 个 查询 时 ， 
这 个 查询 就 被 分 发 到 许 许多 多 服务 器 中 ， 这 些 服务 器 同时 并 行 处 理 用 户 
请 求 ， 并 把 结果 送 到 主 服务 器 进行 合并 处 理 ， 最 后 将 结果 返回 给 用 户 。 


随 着 互联 网 上 内 容 的 增加 ， 尤 其 是 互联 网 2.0 时 代 ， 用 户 产生 的 内 容 越 来 
越 多 ， 即 使 是 Google 这 样 的 服务 器 数量 近乎 无 限 的 公司 ， 也 感到 了 数据 
增加 的 压力 。 因 此 ， 根 据 需 要 网 页 的 重要 性 、 质 量 和 访问 的 频率 建立 常 
用 和 非常 用 等 不 同 级 别 的 索引 。 常 用 的 索引 需要 访问 速度 快 ， 附 加 的 信 
息 多 , 更 新 也 要 快 ; 而 非常 用 的 要 求 就 低 多 了 。 但 是 不 论 搜索 引擎 的 索 
引 在 工程 上 如 何 复杂 ， 原 理 上 依然 非常 简单 ， 即 等 价 于 布尔 运算 。 


3 小 结 


布尔 代数 非常 简单 ， 但 是 对 数学 和 计算 机 发 展 的 意义 重大 ， 它 不 仅 把 逻 
辑 和 数学 合 二 为 一 ， 而 且 给 了 我 们 一 个 全 新 的 视角 看 待 世界 ， 开 创 了 今 
天 数字 化 的 时 代 。 在 此 ， 让 我 们 用 伟大 的 科学 家 牛顿 的 一 句 话 来 结束 这 
一 章 ,“( 人 们 ) 发 觉 真 理 在 形式 上 从 来 是 简单 的 , 而 不 是 复杂 和 含混 的 。” 
(Truth is ever to be found in simplicity, and not in the multiplicity and 


confusion of things. ) 
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第 9 章 图 论 和 网 络 息 虫 


离散 数学 是 当代 数学 的 一 个 重要 分 支 ， 也 是 计算 机 科学 的 数学 基础 。 它 包 
括 数理 逻辑 、 集 合 论 、 图 论 和 近世 代数 四 个 分 支 。 数 理 逻 辑 基于 布尔 运算 ， 
前 面 已 经 介绍 过 了 。 这 里 介绍 图 论 和 互联 网 自动 下 载 工 具 网 络 息 虫 之 间 的 
关系 。 顺 便 提 一 句 ， 用 Google Trends 来 搜索 一 下 “离散 数学 ”这 个 词 ， 

可 以 发 现 不 少 有 趣 的 现象 。 比 如 ， 武 汉 、 哈 尔 滨 、 合 肥 和 长 沙 这 些 城市 对 
这 一 数学 主题 最 有 兴趣 。 


第 8 章 谈 到 了 如 何 建立 搜索 引擎 的 索引 ， 那 么 如 何 自动 下 载 互联 网 所 有 的 
网 页 呢 ? 这 需要 用 到 图 论 中 的 遍历 ( Traverse ) 算法 。 


1 图 论 


图 论 的 起 源 可 追溯 到 大 数学 家 欧 拉 ( Leonhard Euler ) 诞生 的 那个 年 代 。 
1736 年 ， 欧 拉 来 到 普鲁士 的 哥 尼 斯 堡 ( Konigsberg， 大 哲学 家 康德 的 故 
乡 ， 现 在 是 俄罗斯 的 加 里 宁 格 勒 ) ， 发 现 当地 居民 有 一 项 消 遗 活动 ， 就 
是 试图 将 下 图 中 的 每 座 桥 恰好 走 过 一 遍 并 回 到 原 出 发 点 ， 从 来 没有 大 成 
功 过 。 欧 拉 证 明了 这 种 走 法 是 不 可 能 的 ， 并 写 了 一 篇 论文 ， 一 般 认 为 这 
是 图 论 的 开始 。 至 于 为 什么 不 可 能 ,我们 在 延伸 阅读 里 会 介绍 。 
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river bank A 


river bank B 
图 91 哥 尼斯 堡 的 七 座 桥 


图 论 中 所 讨论 的 图 由 一 些 节点 和 连接 这 些 节点 的 弧 组 成 。 如 果 我 们 把 中 
国 的 城市 当成 节点 ， 连 接 城市 的 国道 当成 弧 ， 那 么 全 国 的 公路 干线 网 就 
是 图 论 中 所 说 的 图 。 关 于 图 的 算法 有 很 多 , 但 最 重要 的 是 图 的 遍历 算法 ， 
也 就 是 如 何 通过 弧 访问 图 的 各 个 节点 。 以 中 国 公路 网 为 例 ， 我 们 从 北京 
出 发 ， 访 问 所 有 的 城市 。 可 以 先 看 一 看 北京 和 哪些 城市 直接 相连 ， 比 如 
说 和 和 天津、 济南、 石家庄、 沈阳 、 呼 和 浩特 直接 相连 ( 图 9.2 中 的 黑色 线 
条 ) 。 当 然 ， 这 些 城市 之 间 还 可 以 有 其 他 的 连接 ( 图 9.2 中 的 灰色 线 ) 。 


呼和浩特 


图 9.2 中国 公路 图 
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从 北京 出 发 ,可 以 依次 访问 这 些 城市 。 先 访问 那些 直接 和 北京 相连 的 城市 ， 
比如 天 津 .济南 等 。 然 后 看 看 都 有 哪些 城市 和 这 些 已 经 访问 过 的 城市 相连 ， 
比如 说 北戴河 、 秦 皇 岛 与 天 津 相连 , 青岛 、 烟 台 、 南 京 和 济南 相连 , 太原、 
郑州 和 石家庄 相连 等 ( 图 9.2 中 的 虚线 ) ， 而 后 再 一 次 访问 北戴河 这 些 城 
市 ,直到 把 中 国 所 有 的 城市 都 访问 过 一 遍 为 止 。 这 种 图 的 人 遍历 算法 称 为 “ 广 
度 优先 搜索 ”( Breadth-First Search, 简称 BFS ) , 因为 它 先 要 尽 可 能 “ 广 ” 
地 访问 每 个 节点 所 直接 连接 的 其 他 节点 。 见 图 9.3: 


|( 北 可 河 ) 12 
NA 


图 9.3 广度 优先 人 遍历， 图 中 的 数字 表示 遍历 的 次 序 


另外 还 有 一 种 策略 是 从 北京 出 发 ， 随 便 找 一 个 相连 的 城市 ， 作 为 到 下 一 
个 要 访问 的 城市 ， 比 如 说 济南 ， 然 后 从 济南 出 发 到 下 一 个 城市 ， 比 如 说 
南京 , 再 访问 从 南京 出 发 的 城市 , 一 直 走 到 头 , 直到 找 不 到 更 远 的 城市 了 3 
再 往 回 找 , 看 看 中 间 是 否 有 尚未 访问 的 城市 。 这 种 方法 叫 “ 深 度 优先 搜索 ” 
( Depth-First Search， 简 称 DFS ) ， 因 为 它 是 一 条 路 走 到 黑 。 下 图 是 采 
用 深度 优先 搜索 算法 时 遍历 整个 图 的 次 序 。 
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图 9.4 深度 优先 遍历 ， 各 个 城市 的 访问 次 序 


这 两 种 方法 都 可 以 保证 访问 到 全 部 的 城市 。 当 然 , 不 论 采 用 哪 种 方法 ， 
都 应 该 用 一 个 小 本 本 记录 已 经 访问 过 的 城市 ， 避 兔 同一 个 城市 访问 多 
次 或 者 漏 掉 哪 个 城市 。 


2 网 络 疏 虫 


现在 看 看 图 论 的 遍历 算法 和 搜索 引擎 的 关系 。 互 联网 虽然 很 复杂 ， 但 是 
说 穿 了 其 实 就 是 一 张大 图 而 已 可 以 把 每 一 个 网 页 当 作 一 个 节点 ， 把 
那些 超 链接 ( Hyperlinks ) 当 作 连 接 网 页 的 弧 。 很 多 读者 可 能 已 经 注意 到 ， 
网 页 中 那些 蓝 色 、 带 有 下 划 线 的 文字 背后 其 实 藏 着 对 应 的 网 址 ， 当 你 点 
击 的 时 候 ， 浏 览 器 通过 这 些 隐 含 的 网 址 跳 转 到 相应 的 网 页 。 这 些 隐 含 在 
文字 背后 的 网 址 称 为 “ 超 链接 ”。 有 了 超 链 接 ， 我 们 可 以 从 任何 一 个 网 
页 出 发 ， 用 图 的 遍历 算法 ， 自 动 地 访问 到 每 一 个 网 页 并 把 它们 存 起 来 s 
完成 这 个 功能 的 程序 叫做 网 络 疏 虫 ( Web Crawlers ) ， 或 者 在 一 些 文献 
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中 称 为 “机 器 人 ” (Robot)。 世 界 上 第 一 个 网 络 疏 虫 是 由 麻 省 理工 学 院 
的 学 生 马 休 . 格雷 ( Matthew Gray ) 在 1993 年 写成 的 。 他 给 自己 的 程 
序 起 了 个 名 字 叫 “互联 网 漫游 者 ”( WWW Wanderer ) 。 以 后 的 网 络 息 
虫 越 写 越 复杂 ,但 原理 是 一 样 的 。 


我 们 来 看 看 网 络 息 虫 如 何 下 载 整 个 互联 网 。 假 定 从 一 家 门户 网 站 的 首页 
出 发 ， 先 下 载 这 个 网 页 ， 然 后 通过 分 析 这 个 网 页 ， 可 以 找到 页 面 里 的 所 
有 超 链 接 ， 也 就 等 于 知道 了 这 家 门户 网 站 首页 所 直接 链接 的 全 部 网 页 ， 
诸如 雅虎 邮件 、 雅 虎 财经 、 雅 虎 新 闻 等 。 接 下 来 访问 、 下 载 并 分 析 这 家 
门户 网 站 的 邮件 等 网 页 ， 又 能 找到 其 他 相连 的 网 页 。 让 计算 机 不 停 地 做 
下 去 ， 就 能 下 载 整 个 的 互联 网 。 当 然 ， 也 要 记载 哪个 网 页 下 载 过 了 ， 以 
免 重 复 。 在 网 络 息 虫 中 ,使 用 一 个 称 为 “ 哈 希 表 ”( Hash Table ) 的 列 
表 而 不 是 一 个 记事 本 记录 网 页 是 否 下 载 过 的 信息 。 


现在 的 互联 网 非常 庞大 ,不 可 能 通过 一 台 或 几 台 计算 机 服务 器 就 能 完成 
下 载 任务 。 比 如 Google 在 2010 年 时 整个 的 索引 大 小 大 约 有 5 000 亿 个 网 
页 ， 即 使 更 新 最 频繁 的 基础 索引 也 有 100 亿 个 网 页 ， 假 如 下 载 一 个 网 页 
需要 一 秒 钟 ， 下 载 这 100 亿 个 网 页 则 需要 317 年 ， 如 果 下 载 5 000 亿 个 网 
页 则 需要 16 000 年 左右 , 是 我 们 人 类 有 文字 记载 历史 的 三 倍 时 间 。 因 此 ， 
一 个 商业 的 网 络 疏 虫 需要 有 成 千 上 万 个 服务 器 ， 并 且 通 过 高 速 网 络 连接 
起 来 。 如 何 建立 起 这 样 复杂 的 网 络 系统 ， 如 何 协调 这 些 服务 器 的 任务 ， 
就 是 网 络 设计 和 程序 设计 的 艺术 了 。 


3 延伸 阅读 : 图 论 的 两 点 补充 说 明 


3.1 欧 拉 七 桥 问题 的 证 明 


把 每 一 块 连通 的 陆地 作为 一 个 顶点 ， 每 一 座 桥 当成 图 的 一 条 边 , 那么 就 
把 哥 尼斯 堡 的 七 座 桥 抽象 成 下 面 的 图 。 
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图 9.5 哥 尼 斯 堡 七 桥 的 抽象 图 


对 于 图 中 的 每 一 个 项 点 ， 它 相连 的 边 的 数量 定义 为 它 的 度 ( Degree ) 。 


定理 : 如 果 一 个 图 能 够 从 一 个 顶点 出 发 ， 每 条 边 不 重复 地 遍历 一 遍 回 到 
这 个 顶点 ， 那 么 每 一 顶点 的 度 必须 为 偶数 。 


证 明 : 假如 能 够 遍历 图 的 每 一 条 边 各 一 次 ,那么 对 于 每 个 顶点 ,需要 从 
某 条 边 进入 顶点 ， 同 时 从 另 一 条 边 离开 这 个 顶点 。 进 入 和 离开 顶点 的 次 
数 是 相同 的 ， 因 此 每 个 项 点 有 多 少 条 进入 的 边 ， 就 有 多 少 条 出 去 的 边 。 
也 就 是 说 ， 每 个 顶点 相连 的 边 的 数量 是 成 对 出 现 的 ， 即 每 个 项 点 的 度 都 
是 偶数 。 


在 图 9.5 中 , 有 多 个 顶点 的 度 为 奇数 , 因此, 这 个 图 无 法 从 一 个 顶点 出 发 ， 
遍历 每 条 边 各 一 次 然后 回 到 这 个 顶点 。 


3.2 ”构建 网 络 疏 虫 的 工程 要 点 


“如 何 构建 一 个 网 络 朴 虫 ” 是 我 在 Google 最 常 使 用 的 一 道 面 试题 。 因 为 
我 经 常 使 用 ， 一 些 面试 者 其 实 知道 这 个 事实 。 但 是 我 依然 使 用 ， 而 且 依 
然 可 以 有 效 地 考察 出 一 个 候选 人 的 计算 机 科学 理论 基础 、 算 法 能 力 和 他 
的 工程 素养 。 这 道 题 漂亮 的 地 方 在 于 它 没有 完全 对 和 错 的 答案 ,但 是 有 
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好 和 不 好 、 可 行 和 不 可 行 的 答案 ， 而 且 可 以 不 断 地 往 深 处 问 下 去 。 一 个 
好 的 候选 人 不 需要 做 过 网 络 息 虫 也 能 很 好 回答 这 道 题 ， 而 那些 仅仅 有 执 
行 能 力 的 三 流 工程 师 ， 即 使 在 做 网 络 息 虫 的 工作 ,里面 很 多 地 方 也 不 会 
考虑 全 面 。 


网 络 疏 虫 在 工程 实现 上 要 考虑 的 细节 非常 多 ， 其 中 大 的 方面 有 这 样 几 点 : 
首先 ， 用 BFS 还 是 DFS ? 


虽然 从 理论 上 讲 ， 这 两 个 算法 ( 在 不 考虑 时 间 因 素 的 前 提 下 ) 都 能 够 在 

大 致 相同 的 时 间 ' 里 “ 候 下 ”整个 “静态 ”互联 网 上 的 内 容 ,但 是 TT 程 上 1 

的 两 个 假设 一 不 考虑 时 间 因 素 互 联网 静态 不 变 , 都 是 现实 中 做 不 到 的 。 及 an 
搜索 引擎 的 网 络 息 虫 问题 更 应 该 定义 成 “如 何在 有 限时 间 里 最 多 地 息 下 。 政 9+ 全 
最 重要 的 网 页 ”。 显 然 各 个 网 站 最 重要 的 网 页 应 该 是 它 的 首页 。 在 最 极 

端的 情况 下 ， 如 果 蛋 虫 非常 小 ， 只 能 下 载 非常 有 限 的 网 页 ， 那 么 应 该 下 

载 的 是 所 有 网 站 的 首页 ， 如 果 把 得 虫 再 扩大 些 ， 应 该 和 下 从 首页 直接 链 

接 的 网 页 ( 就 如 同和 北京 直接 相连 的 城市 ) ， 因 为 这 些 网 页 是 网 站 设计 

者 自己 认为 相当 重要 的 网 页 。 在 这 个 前 提 下 ， 显 然 BFS 明显 优 于 DFS。 

事实 上 在 搜索 引擎 的 息 虫 里 ， 虽然 不 是 简单 地 采用 BES， 但 是 先 息 哪个 

网 页 ， 后 候 哪 个 网 页 的 调度 程序 ， 原 理 上 基本 上 是 BFS。 


那么 是 否 DFS 就 不 使 用 了 呢 ? 也 不 是 这 样 的 。 这 是 和 疏 虫 的 分 布 式 结 
构 以 及 网 络 通信 的 握手 成 本 有 关 。 所 谓 “握手 ”就 是 指 下 载 服务 器 和 
网 站 的 服务 器 建立 通信 的 过 程 。 这 个 过 程 需要 额外 的 时 间 ( Overhead 
Time ) ， 如 果 握 手 的 次 数 太 多 ， 下 载 的 效率 就 降低 了 。 实 际 的 网 络 疏 
虫 都 是 一 个 由 成 百 上 千 甚 至 成 千 上 万 台 服 务 器 组 成 的 分 布 式 系统 。 对 于 
某 个 网 站 ， 一 般 是 由 特定 的 一 台 或 者 几 台 服务 器 专门 下 载 。 这 些 服 务 器 
下 载 完 一 个 网 站 ， 然 后 再 进入 下 一 个 网 站 ， 而 不 是 每 个 网 站 先 轮流 下 载 
5%， 然 后 再 回 过 头 来 下 载 第 二 批 。 这 样 可 以 避免 握手 的 次 数 太 多 。 如 果 
是 下 载 完 第 一 个 网 站 再 下 载 第 二 个 ， 那 么 这 又 有 点 像 DFS， 虽然 下 载 同 
一 个 网 站 ( 或 者 子 网 站 ) 时 ， 还 是 需要 用 BFS 的 。 
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总 结 起 来 ， 网 络 息 虫 对 网 页 遍历 的 次 序 不 是 简单 的 BFS 或 者 DFS， 而 是 
有 一 个 相对 复杂 的 下 载 优先 级 排序 的 方法 。 管 理 这 个 优先 级 排序 的 子 系 
统一 般 称 为 调度 系统 ( Scheduler ) 。 由 它 来 决定 当 一 个 网 页 下 载 完成 后 ， 
接 下 来 下 载 哪 一 个 。 当 然 在 调度 系统 里 需要 存储 那些 已 经 发 现 但 是 尚未 
下 载 的 网 页 的 URL, 它们 一 般 存 在 一 个 优先 级 队列 ( Priority Queue ) 里 。 
而 用 这 种 方式 遍历 整个 互联 网 , 在 工程 上 和 BFS 更 相似 。 因 此 , 在 疏 虫 中 ， 
BFS 的 成 分 多 一 些 。 


第 二 ， 页 面 的 分 析 和 URL 的 提取 。 


在 上 一 节 中 提 到 ， 当 一 个 网 页 下 载 完成 后 ， 需 要 从 这 个 网 页 中 提取 其 中 
的 URL， 把 它们 加 入 到 下 载 的 队列 中 。 这 个 工作 在 互联 网 的 早期 不 难 ， 
因为 那 时 的 网 页 都 是 直接 用 HTML 语言 书写 的 。 那 些 URL 都 以 文本 的 
形式 放 在 网 页 中 ， 前 后 都 有 明显 的 标识 ， 很 容易 提取 出 来 。 但 是 现在 很 
多 URL 的 提取 就 不 那么 直接 了 ， 因 为 很 多 网 页 如 今 是 用 一 些 脚本 语言 
(比如 JavaScript ) 生成 的 。 打 开 网 页 的 源 代 码 ，URL 不 是 直接 可 见 的 文 
本 ， 而 是 运行 这 一 段 脚本 后 才能 得 到 的 结果 。 因 此 ， 网 络 疏 虫 的 页 面 分 
析 就 变 得 复杂 很 多 ， 它 要 模拟 浏览 器 运行 一 个 网 页 ， 才 能 得 到 里 面 隐 含 
的 URL。 有 些 网 页 的 脚本 写 得 非常 不 规范 ， 以 至 于 解析 起 来 非常 困难 。 
可 是 ， 这 些 网 页 还 是 可 以 在 浏览 器 中 打开 ,说 明 浏览 器 可 以 解析 。 因 此 ， 
需要 做 浏览 器 内 核 的 工程 师 来 写 网 络 息 虫 中 的 解析 程序 ， 可 惜 出 色 的 浏 
览 器 内 核 工程 师 在 全 世界 数量 并 不 多 。 因 此 , 若 你 发 现 一 些 网 页 明明 存在 ， 
但 搜索 引擎 就 是 没有 收录 ， 一 个 可 能 的 原因 是 网 络 息 虫 中 的 解析 程序 没 
能 成 功 解析 网 页 中 不 规范 的 脚本 程序 。 


第 三 ， 记 录 哪 些 网 页 已 经 下 载 过 的 小 本 本 一 URL 表 。 


在 互联 网 上 ， 一 个 网 页 可 能 被 多 个 网 页 中 的 超 链接 所 指向 ， 即 在 互联 网 
这 张大 图 上 ， 有 很 多 红 (链接 ) 可 以 走 到 这 个 节点 ( 网 页 >。 这 样 在 遍 
历 互联 网 这 张 图 的 时 候 ， 这 个 网 页 可 能 被 多 次 访问 到 。 为 了 防止 一 个 网 
页 被 下 载 多 次 ， 需 要 在 一 个 哈 希 表 中 记录 哪些 网 页 已 经 下 载 过 。 再 遇 到 
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这 个 网 页 时 ， 我 们 就 可 以 跳 过 它 。 采 用 哈 希 表 的 好 处 是 ， 判 断 一 个 网 页 
的 URL 是 否 在 表 中 ,平均 只 需要 一 次 〈 或 者 略 多 的 ) 查找 。 当 然 ， 如 果 
遇 到 没有 下 载 的 网 页 ， 除 了 下 载 该 网 页 ， 还 需要 在 下 载 完 成 后 ， 将 这 个 
网 页 的 URL 存 到 哈 希 表 中 ， 这 个 操作 对 哈 希 表 来 讲 也 非常 简单 。 在 一 台 
下 载 服务 器 上 建立 和 维护 一 张 哈 希 表 并 不 是 难事 。 但 是 如 果 同时 有 上 千 
台 服 务 器 一 起 下 载 网 页 ， 维 护 一 张 统一 的 哈 希 表 就 不 是 一 件 容易 的 事情 
了 。 首 先 ， 这 张 哈 希 表 会 大 到 一 台 服 务 器 存储 不 下 。 其 次 ， 由 于 每 个 下 
载 服务 器 在 开始 下 载 前 和 完成 下 载 后 都 要 访问 和 维护 这 张 表 ， 以 免 不 同 
的 服务 器 做 重复 的 工作 ， 这 个 存储 哈 希 表 的 服务 器 的 通信 就 成 了 整个 息 
虫 系统 的 瓶颈 。 如 何 消除 这 个 瓶颈 是 我 经 常 考 应 聘 者 的 试题 。 


这 里 有 各 种 解决 办 法 ， 没 有 绝对 正确 的 ， 但 是 却 有 好 坏 之 分 。 好 的 方法 
一 般 都 采用 了 这 样 两 个 技术 : 首先 明确 每 台 下 载 服务 器 的 分 工 ， 也 就 是 
说 在 调度 时 一 看 到 某 个 URL 就 知道 要 交 给 哪 台 服务 器 去 下 载 ， 这 样 就 避 
免 了 很 多 服务 器 对 同一 个 URL 做 出 是 否 需 要 下 载 的 判断 。 然 后 ， 在 明确 
分 工 的 基础 上 ,判断 URL 是 否 下 载 就 可 以 批 处 理 了 ,比如 每 次 向 哈 希 表 ( 一 
组 独立 的 服务 器 ) 发 送 一 大 批 询问 ,或 者 每 次 更 新 一 大 批 哈 希 表 的 内 容 。 
这 样 通信 的 次 数 就 大 大 减少 了 。 


4 小 结 


在 图 论 出 现 后 的 很 长 时 间 里 ， 现 实 世界 中 图 的 大 小 都 是 在 几 千 个 节点 以 
下 的 规模 ( 比如 公路 图 、 铁 路 图 等 ) 。 那 时 候 ， 图 的 遍历 是 一 件 很 简单 
的 事情 ， 因 此 在 工业 界 没有 多 少 人 专门 研究 这 个 问题 。 过 去 ， 即 使 是 计 
算 机 专业 的 学 生 , 大 部 分 人 也 体会 不 到 这 个 领域 的 研究 有 什么 实际 用 处 ， 
因为 大 家 在 工作 中 可 能 一 辈子 都 用 不 到 它 。 但 是 随 着 互联 网 的 出 现 ， 图 
的 遍历 方法 一 下 子 有 了 用 武之 地 。 很 多 数学 方法 就 是 这 样 ， 看 上 去 没有 
什么 实际 用 途 ， 但 是 随 着 时 间 的 推移 会 一 下 子 派 上 大 用 场 。 这 恺 怕 是 世 
界 上 还 有 很 多 人 毕生 研究 数学 的 原因 。 
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第 10 章 PageRank 一 Google 的 
民主 表决 式 网 页 排名 技术 


对 于 大 部 分 用 户 的 查询 ,今天 的 搜索 引擎 ， 都 会 返回 成 千 上 万 条 结果 ， 那 
么 应 该 如 何 排序 ， 把 用 户 最 想 看 到 的 结果 排 在 前 面 呢 ? 这 个 问题 很 大 程度 
上 决定 了 搜索 引擎 的 质量 。 我 们 在 这 一 章 和 下 一 章 将 回答 这 个 问题 。 总 的 
来 讲 ， 对 于 一 个 特定 的 查询 ， 搜 索 结果 的 排名 取决 于 两 组 信息 ， 关 于 网 页 
的 质量 信息 ( Quality ) , 和 这 个 查询 与 每 个 网 页 的 相关 性 信息 ( Relevance ) 。 
这 一 章 介绍 衡量 网 页 质量 的 方法 ， 下 一 章 介绍 度量 搜索 关键 词 和 网 页 相关 
性 的 方法 。 


1 PageRank 算法 的 原理 


大 家 可 能 知道 ,Google 革 命 性 的 发 明 是 它 名 为 “PageRank” 的 网 页 排名 算法 ， 
这 项 技术 在 1998 年 前 后 使 得 搜索 的 相关 性 有 了 质 的 飞 聊 ， 圆 满 地 解决 了 
以 往 网 页 搜索 结果 中 排序 不 好 的 问题 。 以 至 于 大 家 认为 Google 的 搜索 质 
量 好 , 甚至 这 个 公司 成 功 都 是 基于 这 个 算法 。 当 然 , 这 样 的 说 法 有 些 夸大 了 。 


最 先 试图 给 互联 网 上 的 众多 网 站 排序 的 并 不 是 Google, 而 是 雅虎 公司 。 雅 
虎 的 创始 人 杨 致远 和 费 罗 最 早 使 用 目录 分 类 的 方式 让 用 户 通过 互联 网 检 
索 信 息 (关于 这 段 历史 ,读者 可 以 参看 拙 作 《 浪 潮 之 烙 》) 。- 但 由 于 当 
时 计算 机 容量 和 速度 的 限制 , 雅虎 和 同时 代 的 其 他 搜索 引擎 都 存在 一 个 共 
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同 的 问题 : 收录 的 网 页 太 少 ,而且 只 能 对 网 页 中 常见 内 容 相关 的 实际 用 词 
进行 索引 。 那 时 ， 用 户 很 难 找到 相关 信息 。 我 记得 1999 年 以 前 查找 一 篇 
论文 ， 要 换 好 几 个 搜索 引擎 。 后 来 DEC 开发 了 AltaVista 搜索 引擎 ， 只 
用 了 一 台 Alpha 服务 器 ， 却 收录 了 上 比 以 往 任何 引擎 都 多 的 网 页 ， 而 且 对 
里 面 的 每 个 词 都 进行 索引 。 但 是 ,AltaVista 虽然 让 用 户 搜索 到 了 大 量 结果 ， 
但 大 部 分 结果 却 与 查询 不 太 相关 , 有 时 找 想 看 的 网 页 需要 翻 好 几 页 。 所 以 ， 
最 初 的 AltaVista 在 一 定 程度 上 解决 了 覆盖 率 的 问题 ， 但 还 不 能 很 好 地 对 
结果 进行 排序 。 和 AltaVista 同时 代 的 搜索 引擎 公司 还 有 Inktomi。 这 两 
家 公司 多 少 发 现 互联 网 网 页 的 质量 在 搜索 结果 的 排序 中 也 应 该 起 一 些 作 
用 ， 于 是 尝试 了 一 些 方法 ， 有 点 效果 ， 但 这 些 方法 都 是 在 数学 上 不 很 完 
善 的 方法 。 这 些 方法 或 多 或 少 地 用 到 了 指向 某 个 网 页 的 链接 以 及 链接 上 
的 文本 (在 搜索 技术 中 称 为 锚 文 本 ，Anchor Text ) 的 技术 。 这 在 当时 都 
是 公开 的 技术 。1996 年 , 我 在 约翰 霍 普 金 斯 大 学 的 师兄 Scott Weiss (后 
来 在 威廉 玛丽 学 院 任教 ) 在 做 信息 检索 博士 论文 时 就 用 链接 数量 作为 
搜索 排序 的 一 个 因子 。 


图 10.1 大 家 都 说 “ 他 是 李开复 ” 


真正 找到 计算 网 页 自身 质量 的 完美 的 数学 模型 的 是 Google 的 创始 人 拉 里 

佩 奇 和 谢 尔 盖 . 布 林 。Google 的 “PageRank”( 网 页 排名 ) 是 怎么 回 事 昵 ? 

其 实 简单 地 说 就 是 民主 表决 。 打 个 比方 ， 假 如 我 们 要 找 李 开 复 博士 ， 有 
100 个 人 举 手 说 自己 是 李开复 。 那 么 谁 是 真 的 呢 ? 也 许 有 好 几 个 真 的 ,但 
即使 如 此 谁 又 是 大 家 真正 想 找 的 呢 ? 如 果 大 家 都 说 在 创新 工场 的 那个 是 真 
的 ， 那 么 他 就 是 真 的 。 
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在 互联 网 上 ， 如 果 一 个 网 页 被 很 多 其 他 网 页 所 链接 ， 说 明 它 受到 普遍 的 
承认 和 信赖 ,那么 它 的 排名 就 高 。 这 就 是 PageRank 的 核心 思想 。 当 然 
Google 的 PageRank 算法 实际 上 要 复杂 得 多 。 比 如 说 ， 对 来 自 不 同 网 页 的 
链接 区 别 对 待 ， 因 为 网 页 排名 高 的 那些 网 页 的 链接 更 可 靠 ， 于 是 要 给 这 些 
链接 以 较 大 的 权重 。 这 就 好 比 在 现实 生活 中 股东 大 会 里 的 表决 ， 是 要 考虑 
每 个 股东 的 表决 权 ( Voting Power ) 的 ， 拥 有 20% 表决 权 的 股东 和 拥有 
1% 表决 权 的 股东 ， 对 最 后 的 表决 结果 的 影响 力 明 显 不 同 。PageRank 算法 
考虑 了 这 个 因素 ， 即 网 页 排名 高 的 网 站 贡献 的 链接 权重 大 。 


现在 举 一 个 例子 ， 我 们 知道 一 个 网 页 Y 的 排名 应 该 来 自 于 所 有 指向 这 
个 网 页 的 其 他 网 页 如, 和 ,和 的 权重 之 和 ， 如 下 图 中 ,Y 的 网 页 排名 
pagerank = 0.001 + 0.01 + 0.02 + 0.05 = 0.081。 


10.2 ”网 页 排名 的 计算 


虽然 佩 奇 和 布 林 不 强调 这 个 算法 中 谁 都 贡献 了 什么 思想 ,但 是 据 我 了 解 ， 
上 述 想法 应 该 来 自 于 佩 奇 。 接 下 来 的 问题 是 X,X2,Xs,X4 的 权重 分 别 是 多 
少 , 如 何 度 量 。 佩 奇 认为 ,应 该 是 这 些 网 页 本 身 的 网 页 排名 。 现 在 麻烦 来 了 ， 
计算 搜索 结果 的 网 页 排名 过 程 中 需要 用 到 网 页 本 身 的 排名 , 这 不 成 了 “ 先 
有 鸡 还 是 先 有 和 蛋 ” 的 问题 了 吗 ? 


破解 这 个 怪圈 的 应 该 是 布 林 。 他 把 这 个 问题 变 成 了 一 个 二 维 矩 阵 相 乘 的 
问题， 并且 用 迭代 的 方法 解决 了 这 个 问题 。 他 们 先 假定 所 有 网 页 的 排名 
是 相同 的 ， 并 且 根据 这 个 初始 值 ， 算 出 各 个 网 页 的 第 一 次 迭代 排名 然 
后 再 根据 第 一 次 迭代 排名 算出 第 二 次 的 排名 。 他 们 两 人 从 理论 卡 证 明了 
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不 论 初始 值 如 何 选取 ， 这 种 算法 都 保证 了 网 页 排名 的 估计 值 能 收敛 到 排 
名 的 真实 值 。 值 得 一 提 的 事 ， 这 种 算法 是 完全 没有 任何 人 工 干预 的 。 


理论 问题 解决 了 , 又 遇 到 实际 问题 。 因 为 互联 网 上 网 页 的 数量 是 巨大 的 ,上 
面 提 到 的 二 维 矩 阵 从 理论 上 讲 有 网 页 数量 的 二 次 方 这 么 多 个 元 素 。 如 果 
假定 有 十 亿 个 网 页 ,那么 这 个 矩阵 就 有 一 百 亿 亿 个 元 素 。 这 么 大 的 矩阵 
相 乘 ， 计 算 量 是 非常 大 的 。 佩 奇 和 布 林 两 人 利用 稀 朴 矩阵 计算 的 技巧 , 大 
大 简化 了 计算 量 ， 并 实现 了 这 个 网 页 排名 算法 。 


互联 网 网 页 数量 的 增长 使 得 PageRank 的 计算 量 越 来 越 大 ， 必 须 利 用 多 台 
服务 器 才能 完成 。Google 早期 时 ，PageRank 计算 的 并 行 化 是 半 手 工 、 半 
自动 的 , 这 样 更 新 一 遍 所 有 网 页 的 PageRank 的 周期 很 长 。2003 年 ， 
Google 的 工程 师 发 明了 MapReduce 这 个 并 行 计算 的 工具 ，PageRank 的 
并 行 计算 完全 自动 化 了 ， 这 就 大 大 缩短 了 计算 时 间 ， 使 网 页 排名 的 更 新 
周期 比 以 前 短 了 许多 。 


总 到 Google 后 ， 佩 奇 和 我 们 几 个 新 员工 座谈 时 ， 讲 起 他 当年 和 布 林 是 怎 
么 想到 网 页 排名 算法 的 。 他 说 : “当时 我 们 觉得 整个 互联 网 就 像 一 张大 
的 图 , 每 个 网 站 就 像 一 个 节点 ,而 每 个 网 页 的 链接 就 像 一 个 弧 。 我 想 ， 
互联 网 可 以 用 一 个 图 或 者 矩阵 描述 ， 我 也 许可 以 用 这 个 发 现 做 篇 博士 论 
文 。” 他 和 布 林 就 这 样 发 明了 PageRank 算法 。PageRank 中 的 Page 一 词 
在 英文 里 既 有 网 页 、 书 页 等 意思 ， 也 是 佩 奇 的 姓氏 我 们 开玩笑 讲 ， 为 什 
么 这 个 算法 叫 “ 佩 奇 ”算法 不 叫 “ 布 林 ” 算 法 ? 


网 页 排名 的 高 明之 处 在 于 它 把 整个 互联 网 当 作 一 个 整体 来 对 待 。 这 无 意 
识 中 符合 了 系统 论 的 观点 。 相 比 之 下 ， 以 前 的 信息 检索 大 多 把 每 一 个 网 
页 当 作 独 立 的 个 体 对 待 ， 大 部 分 人 当初 只 注意 了 网 页 内 容 和 查询 语句 的 
相关 性 ， 忽 略 了 网 页 之 间 的 关系 。 虽 然 在 佩 奇 和 布 林 同 时 代 也 有 一 些 人 
在 思考 如 何 利用 网 页 之 间 的 联系 来 衡量 网 页 的 质量 ， 但 只 是 摸 到 一 些 皮 
毛 ， 找 到 一 些 拼凑 的 办 法 ， 都 没有 从 根本 上 解决 问题 。 
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PageRank 在 当时 对 搜索 结果 的 影响 非常 大 。 在 1997-1998 年 前 后 ， 所 有 
互联 网 上 能 找到 的 搜索 引擎 , 每 十 条 结果 只 有 两 三 条 是 相关 的 、 有 用 的 。 
而 还 在 斯 坦 福 大 学 实验 室 里 的 Google 当时 能 做 到 每 十 条 结果 有 七 八条 是 
相关 的 。 这 是 一 个 质 的 差别 ， 给 人 的 感觉 就 如 同 iPhone 和 老式 诺基亚 手 
机 的 差异 那么 大 。 这 使 得 Google 能 够 迅速 打败 以 前 所 有 的 搜索 引擎 。 但 
是 今天 ， 任 何 商业 的 搜索 引擎 ， 十 条 结果 都 有 七 八条 是 相关 的 了 ， 这 时 
一 个 新 的 搜索 引擎 在 技术 上 投入 再 大 ， 可 提升 的 空间 却 非常 有 限 ， 用 户 
很 难 感觉 到 差别 。 这 也 是 后 来 微软 很 难 在 搜索 上 有 所 作为 的 原因 。 


2 延伸 阅读 : PageRank 的 计算 方法 
读者 知识 背景 : 线性 代数 。 


假定 向 量 


B = (b,b2,..., bn)™ (10.1) 


为 第 一 、 第 二 、… 第 N 个 网 页 的 网 页 排名 。 和 矩阵 


a Qn Qim 
三 | am … aQmn “ Qmm (10.2) 
Qu1 Qun Quam 


为 网 页 之 间 链 接 的 数目 ， 其 中 amn 代表 第 m 个 网 页 指向 第 n 个 网 页 的 链 
接 数 。4 是 已 知 的 ，B 是 未 知 的 ， 是 我 们 所 要 计算 的 。 
假定 有 是 第 i 次 迁 代 的 结果 ， 那 么 

Bi 一 4. Bi (10.3) 


初始 假设 : 所 有 网 页 的 排名 都 是 1/ N， 即 


1 1 1 
B = (3 二 习 
0 NN’ “Ny. 下 
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显然 通过 ( 10.3 ) 简单 (但 是 计算 量 非常 大 ) 的 矩阵 运算 ， 可 以 得 到 
B14,B2,…。 可 以 证 明 ( 省略) Bi 最 终 会 收 合 ， 即 Bi 无 限 趋 近 于 B， 此 时 : 
B 二 Bx A 。 因 此， 当 两 次 迭代 的 结果 B, 和 Bi_, 之 间 的 差异 非常 小 ， 接 近 
于 零 时 ,停止 迄 代 运算 ,算法 结束 。 一 般 来 讲 ， 只 要 10 次 左右 的 迭代 基 
本 上 就 收 仇 了 。 


由 于 网 页 之 间 链 接 的 数量 相 比 互联 网 的 规模 非常 稀疏 ， 因 此 计算 网 页 的 网 页 
排名 也 需要 对 零 概率 或 者 小 概率 事件 进行 平滑 处 理 。 网 页 的 排名 是 个 一 维 向 
量 ， 对 它 的 平滑 处 理 只 能 利用 一 个 小 的 常数 a 。 这 时 ,公式 ( 10.3 ) 变 成 


Bi= [s+0-w4 la. (10.4) 
其 中 N 是 互联 网 网 页 的 数量 ，a 是 一 个 ( 较 小 的 ) 常数 ,1 是 单位 矩阵 。 


网 页 排名 的 计算 主要 是 矩阵 相 乘 , 这 种 计算 很 容易 分 解 成 许多 小 任务 , 在 
多 台 计算 机 上 并 行 。 和 矩阵 相 乘 具 体 的 并 行 化 方法 会 在 最 后 介绍 Google 并 
行 计 算 工 具 MapReduce 时 再 作 讨 论 。 


3 小 结 


今天 ，Google 搜索 引擎 比 最 初 复杂 、 完 善 了 许多 。 但 是 PageRank 在 
Google 所 有 算法 中 依然 是 至 关 重要 的 。 在 学 术 界 ， 这 个 算法 被 公认 
为 是 文献 检索 中 最 大 的 贡献 之 一 ， 并 且 被 很 多 大 学 列 人 信息 检索 课程 
(Information Retrieval ) 的 教程 。 佩 奇 本 人 也 因为 这 个 算法 在 30 岁 时 
当选 为 美国 工程 院 院 士 ， 是 继 乔 布 斯 和 盖 蒋 之 后 又 一 位 当选 院士 的 辍学 
生 。 由 于 PageRank 算法 受到 专利 保护 ， 它 带 来 两 个 结果 。 首 先 ， 其 他 搜 
索引 擎 开始 时 都 比较 遵守 游戏 规则 ， 不 去 侵犯 它 ， 这 对 当时 还 很 弱小 的 
Google 是 一 个 很 好 的 保护 。 第 二 ， 它 使 得 斯 坦 福 大 学 拥有 了 超过 1% 的 
Google 股票 ， 带 来 了 超过 10 亿美 元 的 收益 。 


参考 文献 : 
1 Sergey Brin and Lawrence Page , The Anatomy of a Large-Stale-Hypertextual Web 
Search Engine,http://infolab.stanford.edu/~backrub/google.html 


第 11 章 ”如 何 确定 网 页 和 查询 的 相关 性 


前 面 已 经 谈 过 了 如 何 自 动 下 载 网 页 、 如 何 建立 索引 、 如 何 衡量 网 页 的 质量 
( PageRank ) 。 接 下 来 谈 谈 如 何 确定 一 个 网 页 和 某 个 查询 的 相关 性 。 了 解 
了 这 四 个 方面 , 有 一 定编 程 基础 的 读者 就 可 以 写 出 一 个 简单 的 搜索 引擎 了 ， 
比如 为 自己 所 在 的 学 校 或 院 系 搭建 一 个 小 型 搜索 引擎 。 


我 们 还 是 看 看 前 面 介 绍 的 例子 ， 查 找 关 于 “原子 能 的 应 用 ”的 网 页 。 第 一 
步 是 在 索引 中 找到 包含 这 三 个 词 的 网 页 ( 详 见 第 8 章 关于 布尔 运算 的 内 容 )。 
现在 任何 一 个 搜索 引擎 能 提供 几 十 万 甚至 是 上 百 万 个 与 这 个 查询 词组 多 少 
有 点 关系 的 网 页 ， 比 如 Google 返回 了 大 约 一 千 万 个 结果 。 那 么 哪个 应 该 
排 在 前 面 呢 ? 显然 应 该 把 网 页 本 身 质量 好 ， 且 网 页 和 查询 关键 词 “ 原 子 能 
的 应 用 ”相关 性 高 的 网 页 排 在 前 面 。 第 10 章 已 经 介绍 了 如 何 度量 网 页 的 
质量 。 这 里 介绍 另外 一 个 关键 技术 : 如 何 度量 网 页 和 查询 的 相关 性 。 


1 搜索 关键 词 权重 的 科学 度量 TF-IDF 


短语 “原子 能 的 应 用 ” 可 以 分 成 三 个 关键 词 : 原子 能 、 的 、 应 用 。 根据 直觉 ， 
我 们 知道 ， 包 含 这 三 个 词 较 多 的 网 页 应 该 比 包含 它们 较 少 的 网 页 相关 5 
当然 ， 这 个 办 法 有 一 个 明显 的 漏洞 ， 那 就 是 内 容 长 的 网 页 比 内 容 短 的 网 
页 占便宜 ， 因 为 长 的 网 页 总 的 来 讲 包含 的 关键 词 要 多 些 。 因 此 ， 需 要 根 
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据 网 页 的 长 度 ， 对 关键 词 的 次 数 进 行 归 一 化 ， 也 就 是 用 关键 词 的 次 数 除 
以 网 页 的 总 字数 。 我 们 把 这 个 商 称 为 “关键 词 的 频率 ”， 或 者 “ 单 文本 
词 频 ”( Term Frequency ) ， 比 如 , 某 个 网 页 上 一 共有 1000 词 , 其 中 “ 原 
子 能 ”、“ 的 ”和 “应 用 ”分 别 出 现 了 2 次 、35 次 和 5 次 ， 那么 它们 的 
词 频 就 分 别 是 0.002、0.035 和 0.005。 将 这 三 个 数 相 加 ， 其 和 0.042 就 是 
相应 网 页 和 查询 “原子 能 的 应 用 ”的 “ 单 文本 词 频 ”。 


因此 ， 度 量 网 页 和 查询 的 相关 性 ， 有 一 个 简单 的 方法 ， 就 是 直接 使 用 各 
个 关键 词 在 网 页 中 出 现 的 总 词 频 。 具 体 地 讲 ， 如 果 一 个 查询 包含 N 个 关 
键 词 wi,w2,…,ww ， 它 们 在 一 个 特定 网 页 中 的 词 频 分 别 是 : TFi,TF,.…, TF。 
( TF: Term Frequency， 是 词 频 一 词 的 英文 缩写 ) 。 那 么 ， 这 个 查询 和 
该 网 页 的 相关 性 ( 即 相似 度 ) 就 是 : 


TR + TF2+ .+ TF Cn 


读者 可 能 已 经 发 现 了 又 一 个 漏洞 。 在 上 面 的 例子 中 ,“ 的 ”这 个 词 占 了 总 
词 频 的 80% 上 ， 而 它 对 确定 网 页 的 主题 几乎 没什么 用 处 。 我 们 称 这 种 词 
叫 “ 停 止 词 ”( Stop Word ) ， 也 就 是 说 ， 在 度量 相关 性 时 不 应 考虑 它 
们 的 频率 。 在 汉语 中 ， 停 止 词 还 有 “是 ”、“ 和 ”、“ 中 ”、“ 地 ”、 
“得 ”等 几 十 个 。 忽 略 这 些 停止 词 后 ， 上 述 网 页 和 查询 的 相关 性 就 变 成 
了 0.007， 其 中 “原子 能 ”贡献 了 0.002，“ 应 用 ”贡献 了 0.005。 


细心 的 读者 可 能 还 会 发 现 另 一 个 小 漏洞 。 在 汉语 中 , “应 用 ”是 个 很 通用 
的 词 ， 而 “原子 能 ”是 个 很 专业 的 词 ， 后 者 在 相关 性 排名 中 比 前 者 重要 。 
因此 ， 需 要 对 汉语 中 的 每 一 个 词 给 一 个 权重 ， 这 个 权重 的 设 定 必须 满足 
下 面 两 个 条 件 : 


1. 一 个 词 预测 主题 的 能 力 越 强 ， 权 重 越 大 ， 反 之 ,/ 权 重 越 小 。 在 
网 页 中 看 到 “原子 能 ”这 个 词 ， 或 多 或 少 能 了 解 网 页 的 主题 。 而 看 
到 “应 用 ”一 词 ， 则 对 主题 基本 上 还 是 一 无 所 知 。 因 此，i “原子 能 ” 
的 权重 就 应 该 比 应 用 大 。 
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2. 停止 词 的 权重 为 零 。 


很 容易 发 现 ， 如 果 一 个 关键 词 只 在 很 少 的 网 页 中 出 现 ， 通 过 它 就 容易 锁 
定 搜索 目标 , 它 的 权重 也 就 应 该 大 。 反之 , 如果 一 个 词 在 大 量 网 页 中 出 现 ， 
看 到 它 仍然 不 很 清楚 要 找 什么 内 容 ， 因 此 它 的 权重 就 应 该 小 。 


概括 地 讲 ， 假 定 一 个 关键 词 w 在 Dw 个 网 页 中 出 现 过 ， 那么 Dw 越 大 , w 的 
权重 越 小 ,反之 亦 然 。 在 信息 检索 中 ,使 用 最 多 的 权重 是 “ 逆 文 本 频率 指数 ” 
( Inverse Document Frequency， 缩 写 为 IDF ) ， 它 的 公式 为 mg 六) ， 其 
中 DD 是 全 部 网 页 数 。 比 如 ， 假 定 中 文 网 页 数 是 D = 10 亿 ， 停止 词 “ 的 ” 
在 所 有 的 网 页 中 都 出 现 ， 即 Dw = 10 亿 ， 那么 它 的 IDF =log (10 亿 / 10 
亿 )=log(1) =0。 假 如 专用 词 “ 原 子 能 ”在 200 万 个 网 页 中 出 现 ， 即 
Dw = 200 万 , 则 它 的 权重 1DF = log (500) = 8.96。 又 假定 通用 词 “ 应 用 ” 
出 现在 五 亿 个 网 页 中 ， 它 的 权重 IDF = log (2) ， 则 只 有 1。 


也 就 是 说 ， 在 网 页 中 找到 一 个 “原子 能 ”的 命中 率 ( Hits ) 相当 于 找到 
九 个 “应 用 ”的 命中 率 。 利 用 IDF， 上 述 相关 性 计算 的 公式 就 由 词 频 的 
简单 求 和 变 成 了 加 权 求 和 ， 即 


TF: IDF + TF2* IDF2 + + TFy* IDFy (11.2) 


在 上 面 的 例子 中 , 该 网 页 和 “原子 能 的 应 用 ”的 相关 性 为 0.0161, 其 中 “ 原 
子 能 ”贡献 了 0.0126， 而 “应 用 ”只 贡献 了 0.0035。 这 个 比例 和 我 们 的 
直觉 比较 一 致 了 。 


TE-IDF ( Term Frequency / Inverse Document Frequency ) 的 概念 被 
公认 为 信息 检索 中 最 重要 的 发 明 。 在 搜索 、 文 献 分 类 和 其 他 相关 领域 有 
着 广泛 的 应 用 。 讲 起 TF-IDF 的 历史 变 有 意思 。IDE 的 概念 最 早 是 剑桥 
大 学 的 斯 巴克 … 琼斯 : ( Karen Spirck Jones ) 提出 来 的 。 斯 巴克 … 琼斯 
1972 年 在 一 篇 题 为 “关键 词 特殊 性 的 统计 解释 和 它 在 文献 检索 中 的 应 用 ” 
的 论文 中 提出 IDF 的 概念 。 遗 憾 的 是 ， 她 既 没有 从 理论 上 解释 为 什么 权 


1 
斯 巴克 琼斯 ， 剑 
桥 大 学 计算 机 女 科 
学 家 ， 最 著名 的 言 
论 ; “计算 机 是 如 
此 重要 ， 因 此 不 能 
只 留 给 男人 去 做 ! “ 
在 程序 界 广 为 流 传 


108 川 数学 之 美 


重 IDF 应 该 是 对 数 函数 log (总) (而 不 是 其 他 函数 ， 比如 平方 根 | 下 ys 

也 没有 在 这 个 题目 上 作 进 一 步 的 深入 研究 ， 以 至 于 在 以 后 的 很 多 文献 中 
人 们 提 到 TF-IDF 时 没有 引用 她 的 论文 ， 绝 大 多 数 人 甚至 不 知道 斯 巴克 、 
琼斯 的 贡献 。 同 年 剑桥 大 学 的 罗宾逊 写 了 一 个 两 页 纸 的 解释 ,解释 得 很 
不 好 。 倒 是 后 来 康 奈 尔 大 学 的 萨 尔 顿 ( Salton ) 多 次 撰文 、 写 书 讨论 TF- 
1DF 在 信息 检索 中 的 用 途 ， 加 上 萨 尔 顿 本 人 的 大 名 信息 检索 领域 的 世 
界 级 大 奖 就 是 以 萨 尔 顿 的 名 字 命 名 的 ) ， 很 多 人 都 引用 萨 尔 顿 的 书 ， 甚 
至 以 为 这 个 信息 检索 中 最 重要 的 概念 是 他 提出 的 。 当 然 ， 世 界 并 没有 忘 
记 斯 巴克 . 琼斯 的 贡献 。2004 年 ， 在 纪念 《文献 学 学 报 》 创 刊 60 周年 
之 际 ， 该 学 报 重印 了 斯 巴克 琼斯 的 大 作 。 罗 宾 逊 在 同期 期 刊 上 写 了 篇 
文章 , 用 香农 的 信息 论 解释 IDF, 这 回 的 解释 是 对 的 , 但 文章 写 得 并 不 好 ， 
非常 元 长 ( 足 足 18 页 ) ， 把 简单 问题 搞 复杂 了 。 其 实 ， 信 息 论 的 学 者 们 
已 经 发 现 并 指出 ， 所 谓 IDF 的 概念 就 是 一 个 特定 条 件 下 关键 词 的 概率 分 
布 的 交叉 炉 ( Kullback-Leibler Divergence ) ( 详 见 本 书 第 6 章 “信息 的 
度量 和 作用 ” ) 。 这 样 ， 关 于 信息 检索 相关 性 的 度量 ， 又 回 到 了 信息 论 。 


现在 的 搜索 引擎 对 TF-IDE 进行 了 不 少 细微 的 优化 ， 使 得 相关 性 的 度量 
更 加 准确 了 。 当 然 ， 对 有 兴趣 写 一 个 搜索 引擎 的 爱好 者 来 讲 ,， 使 用 TF- 
IDF 就 是 够 了 。 如 果 结 合 网 页 排名 ( PageRank ) 算法, 那么 给 定 一 个 查询 ， 
有 关 网 页 的 综合 排名 大 致 由 相关 性 和 网 页 排名 的 乘积 决定 。 


2 ”延伸 阅读 : TF-IDE 的 信息 论 依据 
读者 背景 知识 : 信息 论 和 概率 论 。 


一 个 查询 (Query ) 中 每 一 个 关键 词 ( Key Word ) w 的 权重 应 该 反映 这 
个 词 对 查询 来 讲 提供 了 多 少 信息 。 一 个 简单 的 办 法 就 是 用 每 个 词 的 信息 
量 作为 它 的 权重 ， 即 


第 11 章 ”如何 确定 网 页 和 查询 的 相关 性 川 109 


I(w) = —P(w)log P(w) 


je TF(w) log 2 TF(w)) N 


N N N OBTFCW) (11.3) 


其 中 ，N 是 整个 语料库 的 大 小 ， 是 个 可 以 省 略 的 常数 。 上 面 的 公式 可 以 
简化 成 


I(w) = TF(w) log7F (11.4) 


但 是 , 公式 (11.4) 有 一 个 缺陷 : 两 个 词 出 现 的 频率 TF 相同 ， 一 个 是 某 
篇 特定 文章 中 的 常见 词 ， 而 另外 一 个 词 是 分 散在 多 篇 文章 中 ， 那 么 显然 
第 一 个 词 有 更 高 的 分 辨 率 ， 它 的 权重 应 该 更 大 。 显 然 ， 更 好 的 权重 公式 
应 该 反映 出 关键 词 的 分 辩 率 。 


如 果 做 一 些 理想 的 假设 ， 


PTFw) 


1 ) 每 个 文献 大 小 基本 相同 ， 均 为 M 个 词 ， 即 M= 儿 =- 让 一。 


2 ) 一 个 关键 词 在 文献 一 旦 出 现 , 不 论 次 数 多 少 , 贡献 都 等 同 , 这 样 一 个 词 


要 么 在 一 个 文献 中 出 现 c(w) = 世 次 ， 要 么 是 零 。 注意 ，c(w) < M ， 


那么 从 公式 ( 11.4 ) 出 发 可 以 得 到 下 面 的 公式 : 


N MD 
TF(w) logTFCw) =TF(w) log Zw) Dw 


D M 
= TF(w) log(F tw) zew)) (11.5) 


这 样 ， 我 们 看 到 TF-IDF 和 信息 量 之 间 的 差异 就 是 公式 (11.6 ) 中 的 第 二 
项 。 因 为 c(w) < M ， 所 以 第 二 项 大 于 零 ， 它 是 c(w) 的 递 三 函数 。 把 上 面 
的 公式 重 写成 
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(11.6) 


TF -IDF(w) = I(w) — TF(w) gz 


可 以 看 到 ， 一 个 词 的 信息 量 1(w) 越 多 ，TF-IDF 值 越 大 ; 同时 w 命中 的 
文献 中 w 平均 出 现 的 次 数 越 多 ， 第 二 项 越 小 ，TF-IDE 也 越 大 。 这 些 结论 
和 信息 论 完 全 相符 。 


3 小 结 


TF-IDF 是 对 搜索 关键 词 的 重要 性 的 度量 ， 从 理论 上 讲 ， 它 有 很 强 的 理论 
根据 。 因 此 ， 如 果 对 搜索 不 是 很 精通 的 人 ， 直 接 采 用 TF-IDF 效果 也 不 
会 太 差 。 现 在 各 家 搜索 引擎 对 关键 词 重要 性 的 度量 ， 都 在 TF-IDF 的 基 
础 上 有 些 改进 和 微调 。 但 是 ， 在 原理 上 与 TF-IDF 相差 不 远 。 
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第 12 章 地 图 和 本 地 搜索 的 最 基本 技术 
-一 有 限 状 态 机 和 动态 规划 


2007 年 ， 第 一 次 在 谷歌 黑板 报 上 写 “数学 之 美 ” 系列 时 ， 本 地 搜索 和 
服务 还 不 是 很 普及 ， 智 能 手机 不 仅 数量 有 限 ， 而 且 完全 没有 结合 本 地 信 
息 。 地 图 服务 的 流量 与 网 页 搜索 相 比 , 只 是 众多 垂直 搜索 的 一 部 分 。 今 天 ， 
本 地 生活 服务 变 得 越 来 越 重要 ， 而 确认 地 点 、 查 看 地 图 、 查 找 路 线 等 等 
依然 是 本 地 生活 服务 的 基础 。 这 里 为 了 减少 章节 的 数量 ， 我 将 有 限 状 态 
机 这 个 系列 和 动态 规划 的 一 部 分 合并 ， 组 成 围绕 地 图 和 本 地 生活 搜索 的 
一 章 。 


2008 年 9 月 23 日 ,Google、T-Mobile 和 HTC 宣布 了 第 一 款 基于 开源 
操作 系统 Android 的 3G 手机 G1。 这 款 手机 的 外 观 和 体验 远 不 如 一 年 之 
前 苹果 推出 的 第 一 款 iPhone， 价 钱 也 差 不 了 太 多 ,但 是 依然 有 不 少 人 使 
用 。 它 的 杀手 级 功能 是 利用 全 球 卫星 定位 系统 实现 全 球 导 航 。 卫 星 导航 
的 功能 早 在 2000 年 前 后 就 已 有 车 载 设备 使 用 ,但 是 售 价 昂贵 。2004 年 
我 购买 的 一 款 麦 哲 伦 便携 式 导 航 系统 ， 价 格 在 1000 美元 左右 〈 现在 只 要 
两 三 百 美元 ) , 后 来 一 些 智能 手机 也 开发 了 这 个 功能 , 但 是 基本 上 不 可 用 。 
Android 手机 的 这 个 功能 当时 已 经 完全 可 以 媲美 任何 一 个 卫星 导航 仪 , 加 
上 它 的 地 址 识别 技术 ( 采用 有 限 状 态 机 ) 比 任何 一 个 卫星 导航 仪 严格 的 
地 址 匹配 技术 ( 不 能 输 错 一 个 字母 ) 要 好 得 多 ， 结 果 麦 哲 伦 等 导航 仪 制 
造 公司 在 G1 发 布 当 天 的 股价 暴跌 四 成 。 
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智能 手机 的 定位 和 导航 功能 ， 里 面 的 关键 技术 只 有 三 个 : 第 一 是 利用 卫 
星 定位 , 这 一 点 传统 的 导航 仪 都 能 做 到 , 不 做 介绍 ; 第 二 是 地 址 的 识别 ， 
在 本 章 第 一 节 中 介绍 ; 第 三 ,根据 用 户 输入 的 起 点 和 终点 ， 在 地 图 上 规 
划 最 短路 线 或 者 最 快 路 线 ， 在 本 章 第 二 节 中 介绍 。 


1 地 址 分 析 和 有 限 状 态 机 


地 址 的 识别 和 分 析 是 本 地 搜索 必 不 可 少 的 技术 。 判 断 一 个 地 址 的 正确 性 
同时 非常 准确 地 提炼 出 相应 的 地 理 信息 ( 省、 市 、 街 道 、 门 牌号 等 等 ) 
看 似 简单 ， 实 际 上 很 麻烦 。 比 如 腾讯 公司 在 深圳 的 地 址 ， 我 收 到 的 邮件 
和 包 里 上 面 有 如 下 各 种 各 样 的 地 址 : 


广东 省 深圳 市 腾讯 大 厦 

广东 省 518057 深圳 市 南山 区 科技 园 腾讯 大 厦 

深圳 市 518057 科技 园 腾讯 大 厦 

深圳 市 南山 区 科技 园 腾讯 公司 

深圳 市 南山 区 科技 园 腾讯 总 部 518000 ( 估计 不 知道 准确 的 邮编 ) 
广东 省 深圳 市 科技 园 中 一 路 腾讯 公司 


这 些 地址 写 得 都 有 点 不 清楚 ， 但 是 邮件 和 包 囊 我 都 收 到 了 ， 说 明 邮 有 递 员 
可 以 识别 。 但 是 , 如 果 让 一 个 程序 员 写 一 个 分 析 器 分 析 这 些 地 址 的 描述 ， 
和 恐怕 就 不 是 一 件 容 易 的 事 了 。 其 根本 原因 在 于 ， 地 址 的 描述 虽然 看 上 去 
简单 , 但 是 它 依然 是 比较 复杂 的 上 下 文 有 关 的 文法 ， 而 不 是 上 下 文 无 关 。 
比如 下 面 的 两 个 地 址 : 


上 海 市 北京 东 路 xx 苇 


南京 市 北京 东 路 xx 号 


当 识 别 器 扫描 到 “北京 东 路 ”时 . 它 和 后 面 的 门牌 号 是 否 构成 一 个 正确 
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的 地 址 需要 看 它 的 上 下 文 ， 即 城市 名 。 我 们 在 前 面 的 章节 中 讲 过 ， 上 下 
文 有 关 文 法 的 分 析 既 复杂 又 耗 时 ， 它 的 分 析 器 也 不 好 写 。 如 果 没 有 好 的 
模型 ， 这 个 分 析 器 写 出 来 很 难看 不 说 ， 还 有 很 多 情况 覆盖 不 了 。 比 如 这 
样 的 地 址 描述 : 


(深圳 市 ) 深 南大 道 和 南山 大 道 交口 西 100 米 " 2 


很 多 商家 还 真是 这 


么 描述 它们 的 地 址 。 


所 幸 的 是 ， 地 址 的 文法 是 上 下 文 有 关 文法 中 相对 简单 的 一 种 ， 因 此 有 许 
多 识别 和 分 析 的 方法 ， 但 最 有 效 的 是 有 限 状 态 机 。 


一 个 有 限 状态 机 是 一 个 特殊 的 有 向 图 ( 参见 本 书 第 9 章 中 图 论 相 关 的 内 
容 ) ， 它 包括 一 些 状态 (节点 ) 和 连接 这 些 状 态 的 有 向 弧 。 图 12.1 是 一 
个 识别 中 国 地 址 的 有 限 状态 机 的 简单 例子 。 


图 12.1 识别 地 址 的 有 限 状 态 机 


每 一 个 有 限 状态 机 都 有 一 个 开始 状态 和 一 个 终止 状态 ， 以 及 若干 中 间 状 
态 。 每 一 条 弧 上 带 有 从 一 个 状态 进入 下 一 个 状态 的 条 件 。 比 如 ， 在 上 图 
中 ， 当 前 的 状态 是 “省 ”， 如 果 遇 到 一 个 词组 和 (区 ) 县 名 有 关 ， 就 进 
入 状态 “区 县 ”; 如 果 遇 到 的 下 一 个 词组 和 城市 有 关 ， 那 么 就 进 和 人 “市 
的 状态 ， 如 此 等 等 。 如 果 一 条 地 址 能 从 状态 机 的 开始 状态 经 过 状态 机 的 
若干 中 间 状 态 ， 走 到 终止 状态 ,那么 这 条 地 址 就 有 效 ， 否 则 无 效 。 比如 ， 
“北京 市 双 清 路 83 号 ”对 于 上 面 的 有 限 状 态 来 讲 有 效 ， 而 “上 海 市 辽宁 
省 马 家 庄 ” 则 无 效 ( 因为 无 法 从 “市 ” 走 回 到 “省 ”) 。 
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使 用 有 限 状 态 机 识别 地 址 ， 关 键 要 解决 两 个 问题 ， 即 通过 一 些 有 效 的 地 
址 建立 状态 机 ， 以 及 给 定 一 个 有 限 状态 机 后 ， 地 址 字 串 的 匹配 算法 。 好 
在 这 两 个 问题 都 有 现成 的 算法 。 有 了 关于 地 址 的 有 限 状态 机 后 ， 就 可 以 用 
它 分 析 网 页 ， 找 出 网 页 中 的 地 址 部 分 ,建立 本 地 搜索 的 数据 库 。 同 样 ， 也 
可 以 对 用 户 输入 的 查询 进行 分 析 ， 挑 出 其 中 描述 地 址 的 部 分 ， 当 然 ， 剩 
下 的 关键 词 就 是 用 户 要 找 的 内 容 。 比 如 ， 对 于 用 户 输入 的 “北京 市 双 清 
路 附近 的 酒家 ”，Google 本 地 会 自动 识别 出 地 址 “北京 市 双 清 路 ”和 要 
找 的 对 象 “ 酒 家 ”。 


上 述 基 于 有 限 状 态 机 的 地 址 识别 方法 在 实用 中 会 有 一 些 问题 : 当 用 户 输 
人 的 地 址 不 太 标准 或 者 有 错别字 时 ， 有 限 状态 机 会 束手无策 ， 因 为 它 只 
能 进行 严格 匹配 。 ( 其 实 ， 有 限 状 态 机 在 计算 机 科学 中 早期 的 成 功 应 用 
是 在 程序 语言 编译 器 的 设计 中 。 一 个 能 运行 的 程序 在 语法 上 必须 是 没有 
错 的 ， 所 以 不 需要 模糊 匹配 。 而 自然 语言 则 很 随意 ， 无 法 用 简单 的 语法 
描述 。) 


为 了 解决 这 个 问题 ,我 们 希望 看 到 可 以 进行 模糊 匹配 ， 并 给 出 一 个 字 串 
为 正确 地 址 的 可 能 性 。 为 了 实现 这 一 目的 ， 科 学 家 们 提出 了 基于 概率 的 
有 限 状 态 机 。 这 种 基于 概率 的 有 限 状态 机 和 离散 的 马尔 可 夫 链 ( 详 见 前 
面 关 于 马尔 可 夫 模 型 的 章节 ) 基本 上 等 效 。 


在 上 个 世纪 80 年 代 以 前 ， 尽 管 有 不 少 人 使 用 基于 概率 的 有 限 状态 机 ， 但 
都 是 为 自己 的 应 用 设计 专用 的 有 限 状 态 机 的 程序 。 上 个 世纪 90 年 代 以 后 ， 
随 着 有 限 状 态 机 在 自然 语言 处 理 上 的 广泛 应 用 ， 不 少 科学 家 致力 于 编写 
通用 的 有 限 状态 机 程序 库 。 其 中 ， 最 成 功 的 是 前 AT&T 实验 室 的 三 位 科 
学 家 , 莫 瑞 ( Mehryar Mohri )、 皮 耶 尔 ( Fernando Pereira ) 和 瑞 利 ( Michael 
Riley ) 。 他 们 三 人 花 了 很 多 年 时 间 ， 编 写成 一 个 通用 的 基于 概率 的 有 限 
状态 机 C 语言 工具 库 。 由 于 AT&T 有 对 学 术 界 免费 提供 各 种 编程 工具 的 
好 传统 ， 他 们 三 人 也 把 自己 多 年 的 心血 拿 出 来 和 同行 们 共享 。 可 惜 好 景 
不 长 ，AT&T 实验 室 风光 不 再 ， 这 三 个 人 都 离开 了 AT&T， 莫 瑞 成 了 纽 
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约 大 学 的 教授 ; 皮 耶 尔 先 当 了 宾夕法尼亚 大 学 的 计算 机 系 主任 ， 而 后 成 
为 Google 的 研究 总 监 ; 而 瑞 利 直接 成 为 Google 的 研究 员 。 有 一 段 时 间 ， 
AT&T 实验 室 的 新 东家 不 再 免费 提供 有 限 状 态 机 C 语言 工具 库 。 虽 然 此 
前 莫 瑞 等 人 公布 了 他 们 的 详细 算法 *， 但 是 省 略 了 实现 的 细节 。 因 此 ， 在 
学 术 界 ， 不 少 科学 家 能 够 重 写 同样 功能 的 工具 库 ， 但 是 很 难 达到 AT&T 
工具 库 的 效率 ( 即 运算 速度 ) , 这 一 度 是 一 件 令 人 遗憾 的 事 。 但 是 近年 来 ， 
随 着 开源 软件 在 世界 上 的 影响 力 越 来 越 大 ，AT&T 又 重新 开放 了 这 个 工 
具 的 源 代码 。 有 限 状 态 机 的 程序 不 是 很 好 写 ， 它 要 求 编程 者 既 懂 得 里 面 
的 原理 和 技术 细节 ， 又 要 有 很 强 的 编程 能 力 ， 因 此 建议 大 家 直接 采用 开 
源 的 代码 就 好 。 


2 全 球 导航 和 动态 规划 


全 球 导航 的 关键 算法 是 计算 机 科学 图 论 中 的 动态 规划 ( Dynamic 
Programming ) 的 算法 。 


12.2 ”中 国 公路 图 是 一 个 特殊 的 加 权 图 


和 
http://www.cs 
nyu.edu/~mohri/ 
pubycsloLpdf 
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在 图 论 中 ， 一 个 抽象 的 图 包括 一 些 节 点 和 连接 它们 的 弧 。 如 果 再 考 
虑 每 条 弧 的 长 度 ， 或 者 说 权重 ， 那 么 这 个 图 就 是 加 权 图 ( Weighted 
Graph ) 。 比 如 说 中 国 公路 网 就 是 一 个 很 好 的 “加 权 图 ”例子 : 每 个 城市 
是 一 个 节点 , 每 一 条 公路 是 一 条 弧 。 图 中 弧 的 权重 对 应 于 地 图 上 的 距离 ， 
或 者 是 行车 时 间 、 过 路 费 金额 ， 等 等 。 图 论 中 很 常见 的 一 个 问题 是 要 找 
一 个 图 中 给 定 两 个 点 之 间 的 最 短路 径 ( Shortest Path ) 。 比 如 ， 想 找到 从 
北京 到 广州 的 最 短 行车 路 线 或 者 最 快 行车 路 线 。 当 然 ， 最 直接 的 笨 办 法 
是 把 所 有 可 能 的 路 线 看 一 遍 ， 然 后 找到 最 优 的 。 这 种 办 法 只 有 在 节点 数 
是 个 位 数 的 图 中 还 行 得 通 ， 当 图 的 节点 数 ( 城市 数目 ) 有 几 十 个 的 时 
候 ， 计 算 的 复杂 度 就 已 经 让 人 甚至 计算 机 难以 接受 了 ， 因 为 所 有 可 能 路 
径 的 个 数 随 着 节点 数 的 增长 而 呈 指 数 ( 或 者 说 几何 级 数 ) 增长 ,也 就 
是 说 ， 每 增加 一 个 城市 ， 复 杂 度 要 大 一 倍 。 显 然 导航 系统 不 会 用 这 种 笨 
办 法 一 任何 导航 仪 或 者 导航 软件 都 能 在 几 秒 钟 内 就 找到 最 佳 行车 路 线 。 


所 有 的 导航 系统 采用 的 都 是 动态 规划 的 办 法 ， 这 里 面 的 Programming 一 
词 在 数学 上 的 含义 是 “规划 ”， 不 是 计算 机 里 的 “编程 ”。 动 态 规划 的 
原理 其 实 很 简单 。 以 上 面 的 问题 为 例 ， 当 我 们 要 找 从 北京 到 广州 的 最 短 
路 线 时 ， 先 不 妨 倒 过 来 想 这 个 问题 : 假如 已 经 找到 了 所 要 的 最 短路 线 ( 称 
为 路 线 一 ) ， 如 果 它 经 过 郑州 ， 那 么 从 北京 到 郑州 的 这 条 子路 线 〈 比如 
是 北京 一 保定 一 石家庄 一 郑州 ， 暂 定 为 子路 线 一 ) ， 必 然 也 是 所 有 从 北 
京 到 郑州 的 路 线 中 最 短 的 。 和 否则， 可 以 假定 还 存在 从 北京 到 郑州 更 短 的 
路 线 ( 比如 北京 一 济南 一 徐州 一 郑州 ， 暂 定 为 子路 线 二 ) ， 那 么 只 要 用 
这 第 二 条 子路 线 代替 第 一 条 ， 就 可 以 找到 一 条 从 北京 到 广州 全 程 更 短 的 
路 线 ( 称 为 路 线 二 ) ， 这 就 和 我 们 讲 的 路 线 一 是 北京 到 广州 最 短 的 路 线 
相 矛 盾 。 其 矛盾 的 根源 在 于 ， 假 设 的 子路 线 二 或 者 不 存在 ， 或 者 比 子路 
线 一 还 来 得 长 。 


在 实际 实现 这 个 算法 时 ， 我 们 又 正 过 来 解决 这 个 问题 ， 也 就 是 说 ， 要 想 
找到 从 北京 到 广州 的 最 短路 线 , 先 要 找到 从 北京 到 郑州 的 最 短路 线 。 当 然 ， 
聪明 的 读者 可 能 已 经 发 现 其 中 的 一 个 “漏洞 ”， 就 是 在 还 没有 找到 全 程 
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最 短路 线 前 ， 不 能 肯定 它 一 定 经 过 郑州 。 不 过 没有 关系 ， 只 要 在 图 上 横 切 
一 刀 ， 这 一 刀 要 保证 将 任何 从 北京 到 广州 的 路 线 一 分 为 二 ， 如 图 12.3。 


图 12.3 ”从 北京 到 广州 的 路 线 必须 经 过 图 中 粗 线 上 的 某 个 城市 


那么 从 广州 到 北京 的 最 短路 径 必须 经 过 这 一 条 线 上 的 某 个 城市 ( 乌 鲁 木 
齐 、 西 宁 、 兰 州 、 西 安 、 郑 州 、 济 南 ) 。 我 们 可 以 先 找到 从 北京 出 发 到 
这 条 线 上 所 有 城市 的 最 短路 径 ， 最 后 得 到 的 全 程 最 短路 线 一 定 包括 这 些 
局 部 最 短路 线 中 的 一 条 ， 这 样 ， 就 可 以 将 一 个 “寻找 全 程 最 短路 线 ” 的 
问题 ， 分 解 成 一 个 个 寻找 局 部 最 短路 线 的 小 问题 。 只 要 将 这 条 横 切线 从 
北京 向 广州 推移 ， 直 到 广州 为 止 ， 我 们 的 全 程 最 短路 线 就 找到 了 。 这 便 
是 动态 规划 的 原理 。 采 用 动态 规划 可 以 大 大 降低 最 短路 径 的 计算 复杂 度 。 
在 上 面 的 例子 中 ， 每 加 入 一 条 横 切 线 ， 线 上 平均 有 10 个 城市 ， 从 广州 到 
北京 最 多 经 过 15 个 城市 ， 那 么 采用 动态 规划 的 计算 量 是 10x 10x 15， 而 
采用 穷 举 路 径 的 笨 办 法 是 10 的 15 次 方 ， 前 后 差 了 万 亿 倍 。 


正确 的 数学 模型 可 以 将 一 个 计算 量 看 似 很 大 的 问题 的 计算 复杂 度 大 大 降 
低 。 这 便 是 数学 的 妙用 。 
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3 ”延伸 阅读 : 有 限 状 态 传感器 


读者 背景 知识 : 图 论 。 


有 限 状 态 机 的 应 用 远 不 止 地 址 的 识别 ， 今 天 的 语音 识别 解码 器 基本 上 是 
基于 有 限 状 态 机 的 原理 。 另 外 ， 它 在 编译 原理 、 数 字 电 路 设计 上 有 着 非 
常 重要 的 应 用 ， 因 此 在 这 里 给 出 有 限 状 态 机 严格 的 数学 模型 。 


定义 (有 限 状态 机 ) : 有 限 状态 机 是 一 个 五 元 组 (2,5, so,6,f) ， 其 中 : 


了 是 输入 符号 的 集合 ， 

5 是 一 个 非 空 的 有 限 状 态 集合 ， 

so 是 $ 中 的 一 个 特殊 状态 ， 起 始 状态 ， 

6 是 一 个 从 空间 S x 了 到 5 的 映射 函数 ， 即 5:Sx 了 3S。 

了 是 5 中 另外 一 个 特殊 状态 ， 终 止 状态 。 

这 里 面 映射 函数 5 对 于 一 些 变量 ， 即 状态 和 输入 符号 的 组 合 可 能 没有 合适 
的 对 应 状态 ( 函数 值 ) , 也 就 是 说 , 在 一 些 状态 下 , 有 的 符号 不 能 被 接收 ， 
比如 在 12.1 的 例子 中 , 进入 到 城市 这 个 状态 后 ,对 于 “省 份 "这样 的 输入 
就 进入 不 了 新 的 状态 了 。 这 时 ， 有 限 状态 机 就 会 发 出 出 错 信号 。 如 果 一 个 


状态 序列 在 有 限 状 态 机 中 能 够 从 so 开始 经 过 一 些 状态 进入 终止 状态 f， 那 
么 它 就 是 可 以 由 这 个 有 限 状态 机 生成 的 合法 序列 ， 反 之 则 不 是 。 


(本 ) /wn .ee 
\ 
SZ 2 电 


图 12.4 ”有限 状态 机 中 一 些 状态 和 输入 符号 的 组 合 没有 合适 的 对 应 状态 “这 时 可 以 把 它们 对 
应 到 出 错 状态 
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有 限 状 态 机 在 语音 识别 和 自然 语言 理解 中 起 着 非常 重要 的 作用 ， 不 过 
这 些 领 域 使 用 的 是 一 种 特殊 的 有 限 状态 机 一 加 权 的 有 限 状态 传感器 
( Weighted Finite State Transducer， 简 称 WFST ) 。 下 面 介绍 WFST 及 
其 构造 和 用 法 。 


有 限 状态 传感器 ( Finite State Transducer ) 的 特殊 性 在 于 ， 有 限 状态 机 
中 的 每 个 状态 由 输入 和 输出 符号 定义 。 如 图 12.5。 


is:is/0.5 better:better/0.7 


are:are/0.5 ( 站 式 
Worse:worse/0.3 
is:is/1 


12.5 ”有 限 状态 传感器 


状态 4 的 定义 是 “输入 为 is 或 者 are， 输 出 为 better 或 者 worse” 的 状 
态 。 不 管 整个 符号 序列 前 后 如 何 ， 只 要 在 某 一 时 刻 前 后 的 符号 为 is / are 
和 better/ worse 的 组 合 ， 就 能 进入 此 状态 。 状 态 可 以 有 不 同 输入 和 输出 ， 
如 果 这 些 输入 和 输出 的 可 能 性 不 同 ， 即 赋予 了 不 同 的 权重 ， 那 么 相应 的 
有 限 状态 传感器 就 是 加 权 的 。 对 比 我 们 在 第 2 章 “ 自 然 语 言 处 理 ” 中 提 
到 的 二 元 模型 ， 读 者 可 能 会 发 现任 何 一 个 词 的 前 后 二 元 组 ， 都 可 以 对 应 
到 WEFST 的 一 个 状态 。 因 此 ，WEFST 是 天 然 的 自然 语言 处 理 的 分 析 工 具 
和 解码 工具 。 


在 语音 识别 中 ， 每 个 被 识别 的 句子 都 可 以 用 一 个 WFST 来 表示 。 


is:is/0.5 better:better/0.7 


data:data/0.66 (4) 
using:using/1 are:are /0.5 


Worse:worse/0.3 
is:is/1 


intuition:intuition /0.33 


图 12.6 ”描述 的 一 句 话 的 语音 的 识别 结果 ， 句 子 的 意思 是 “使 用 数据 好 ， 使 用 直觉 不 好 ” 
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WEFST 中 的 每 一 条 路 径 就 是 一 个 候选 的 句子 ， 其 中 概率 最 大 的 那 条 路 径 
就 是 这 个 句子 的 识别 结果 。 而 这 个 算法 的 原理 是 上 节 介 绍 的 动态 规划 。 


4 小 结 


有 限 状 态 机 和 动态 规划 的 应 用 非常 广泛 ， 远 远 不 止 识别 地 址 、 导 航 等 地 
图 服务 相关 领域 。 它 们 在 语音 识别 、 拼 写 和 语法 纠 错 、 拼 音 输入 法 、 工 
业 控制 和 生物 的 序列 分 析 等 领域 都 有 着 极其 重要 的 应 用 。 其 中 在 拼音 输 
人 法 中 的 应 用 后 面 还 要 再 介绍 。 


参考 文献 : 


1. MehryarMohri, Fernando Pereira, Michael Riley, Weighted finite-state transducers in 
speech recognition, Computer Speech and Language, V16-1, pp69-88,2002 


第 13 章 Google AK-47 的 设计 者 
-一 阿 米 特 . 辛 格 博士 


枪 迷 或 者 看 过 尼古拉斯 ' 凯 奇 ( Nicolas Cage ) 主 演 的 电影 “战争 之 王 ”( Lord 
of War ) 的 人 也 许 还 记得 影片 开头 的 一 段 话 : ( 在 所 有 轻武器 中 ) 最 有 名 
的 是 AK-47 冲锋 枪 ( 也 就 是 中 国 五 六 式 冲 锋 枪 的 原型 ， 全 世界 共 制 造 了 
7 500 万 支 , 另外 制造 了 一 亿 支 “兼容 ” 的 ) , 因为 它 从 不 卡 壳 , 不 易 损 坏 ， 
可 在 任何 环境 下 使 用 ， 可 靠 性 好 ， 杀 伤 力 大 并 且 操 作 简单 。 


上 一 全 三 


图 13.1 AK-47 冲锋 枪 


我 认为 ， 在 计算 机 科学 领域 ， 一 个 好 的 算法 应 该 像 AK-47 冲锋 枪 那 
样 : 简单 、 有 效 、 可 靠 性 好 而 且 容 易 读 懂 ( 或 者 说 易 操作 ) ， 而 不 应 该 
是 故弄玄虚 。Google Fellow、 美 国 工程 院 院士 阿 米 特 * 辛 格 博士 (Amit 
Singhal ) 就 是 Google AK-47 的 设计 者 ， 在 公司 内 部 ，Google 的 排序 算 
法 Ascorer 里 面 的 A 便 是 他 的 名 字 首 字母 。 
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上 
对 于 搜索 反 作 幅 ， 
以 后 还 要 专门 讲述 。 


2 

在 Google 创 业 时 
期 ， 我 们 周末 一 般 
是 不 休息 的 。 


从 加 入 Google 的 第 一 天 ， 我 就 开始 了 和 辛 格 四 年 愉快 的 合作 ， 而 他 一 直 是 
我 的 良师益友 。 辛 格 、 马 特 ' 柯 蒋 ( Matt Cutts， 中 国 一 些 用 户 误 认为 他 
是 联邦 调查 局 特工 ， 当 然 他 不 是 ) 、 马 丁 ， 柯 斯 尔 基 (Martin Kaszkiel ) 
和 我 四 个 人 一 同 研究 和 解决 网 络 搜索 中 的 作弊 问题 ( Spam ) '。 我 们 发 现 
绝 大 多 数 作弊 的 搜索 都 多 少 有 些 商业 意图 。 这 也 合情合理 ， 因 为 利益 使 然 。 
因此 ， 我 们 需要 建 一 个 分 类 器 ， 准 确 区 分 一 个 搜索 是 否 有 商业 意图 。 我 
以 前 一 直 在 学 术 界 学 习 和 工作 ， 凡 事 倾向 于 寻找 完美 的 解决 方案 。 设 计 一 
个 可 用 的 、 漂 亮 的 分 类 器 对 我 来 讲 不 是 难事 ， 但 是 实现 和 训练 它 大 约 要 花 
三 四 个 月 的 时 间 ， 当 时 Google 还 没有 MapReduce 这 种 并 行 计算 工具 ， 复 
杂 的 机 器 学 习 非 常 耗 时 。 而 辛 格 认为 找 个 简单 有 效 的 办 法 就 行 了 ， 他 问 我 
实现 一 个 最 简单 可 用 的 分 类 器 大 约 需要 多 少时 间 , 我 说 一 个 周末 ?可 能 就 够 
了 。 周 一 我 把 分 类 器 完成 了 ， 问 他 是 否 还 需要 花 时 间 去 实现 一 个 完美 的 方 
案 。 辛 格 看 了 看 结果 说 ，“ 够 好 了 ， 够 好 了 ， 在 工程 上 简单 实用 的 方法 最 
好 。” 我 们 就 依照 这 个 原则 ， 对 其 他 问题 也 是 找 简单 实用 的 方案 ， 结 果 一 
两 个 月 就 把 作弊 的 数量 减少 了 一 半 。 当 时 我 们 和 公司 工程 副 总 裁 韦 恩 ' 罗 
森 (Wayne Rosing ) 打 了 个 赌 ， 如 果 我 们 能 减少 40% 的 作弊 ， 他 就 给 我 们 
发 工程 奖 ， 送 我 们 四 个 家 庭 ( 不止 是 四 个 员工 ) 去 夏威夷 度假 五 天 。 这 个 
反 作 兽 的 算法 上 线 后 ， 罗 森 真 的 履约 了 。 谢 尔 盖 * 布 林 问 我 怎么 在 这 么 短 
的 时 间 里 实现 这 么 些 功 能 。 我 告诉 他 其 实 方法 很 简单 。 布 林 讲 ，“ 哦 ， 那 
就 像 AK-47 自动 步枪 。 ”这 个 分 类 器 设计 得 非常 小 巧 ( 只 用 很 小 的 内 存 ) ， 
而 且 非常 快速 ( 几 台 服务 器 就 能 处 理 全 球 搜索 的 分 类 ) ， 至 今 运 行 得 很 好 ， 
即使 在 我 离开 Google 后 ， 依 然 在 使 用 。 这 项 技术 ， 也 是 Google 取得 的 第 
一 个 反 作 弊 方面 的 美国 专利 。 


后 来 我 和 辛 格 一 起 又 完成 了 许多 项 目 ， 包 括 对 中 、 日 、 韩 文 排名 新 算法 
的 设计 和 实现 。 在 2002 年 ，Google 虽然 支持 对 70 种 语言 的 检索 ,但 是 
所 有 的 语言 只 有 一 个 排名 算法 。 当 时 的 国际 化 工作 仅仅 局 限于 翻译 界面 
和 字符 编码 的 适应 。 辛 格 找 我 来 一 起 做 一 个 全 新 的 中 、 日 * 韩文 搜索 算 
法 。 说 实话 ， 我 当时 对 特定 语言 的 搜索 不 感 兴趣 ， 但 是 公司 只 有 我 一 个 
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学 自然 语言 处 理 的 中 国人 , 而 当时 的 中 日 韩 搜索 结果 相 比 英文 又 很 “ 烂 ”， 
这 件 事 便 落 到 了 我 的 头 上 。 有 了 上 次 的 经 验 ， 我 这 次 也 干脆 直接 用 了 一 
个 “简单 ”的 方案 。 这 个 方法 效果 虽然 很 好 ， 但 是 占用 内 存 较 多 ， 当 然 
Google 的 服务 器 数量 还 没有 现在 这 么 多 ， 不 可 能 为 了 中 日 韩 这 三 个 占 总 
流量 不 到 10% 的 语言 额外 增加 一 批 服 务 器 。 辛 格 提出 用 一 个 拟 合 函数 替 
代 很 耗 内 存 的 语言 模型 ， 这 样 不 需要 增加 任何 服务 器 。 但 是 ， 这 样 一 来 
搜索 质量 的 提高 幅度 只 有 原来 采用 大 模型 时 的 80%。 我 对 此 多 少 有 点 不 
甘心 。 辛 格 解释 说 ， 这 样 可 以 让 我 们 至 少 早 两 个 月 将 这 个 新 算法 提供 给 
中 国 的 用 户 ， 他 们 的 用 户 体验 将 比 现在 有 质 的 提高 ， 这 是 雪中送炭 。 我 
们 暂时 放弃 掉 的 20% 收益 ， 对 他 们 来 讲 是 锦上添花 的 事 。 我 接受 了 他 的 
建议 ,在 2003 年 初 我 发 布 了 第 一 个 专门 为 中 日 韩语 言 设计 的 搜索 算法 。 
一 年 后 ，Google 的 服务 器 数量 也 有 所 增加 。 我 在 模型 压缩 上 也 有 了 进步 ， 
这 时 便 发 布 了 完整 的 中 日 韩语 言 搜索 算法 。 辛 格 这 种 做 事情 的 哲学 ， 即 
先 帮助 用 户 解 决 80% 的 问题 ， 再 慢 慢 解决 剩 下 的 20% 问题 ， 是 在 工业 界 
成 功 的 秘诀 之 一 。 许 多 失败 并 不 是 因为 人 不 优秀 , 而 是 做 事情 的 方法 不 对 ， 
一 开始 追求 大 而 全 的 解决 方案 ， 之 后 长 时 间 不 能 完成 ， 最 后 不 了 了 之 。 


在 Google 里 ， 辛 格 一 直 坚持 寻找 简单 有 效 的 解决 方案 ， 因 为 他 奉行 简单 
的 哲学 。 但 是 这 种 做 法 在 Google 这 个 人 才 济 济 的 公司 里 常常 招 人 反对 ， 
因为 很 多 资深 的 工程 师 倾向 于 低估 简单 方法 的 有 效 性 。 2003-2004 年 ， 
Google 从 世界 上 很 多 知名 实验 室 和 大 学 ， 比 如 MITRE*、AT&T 实验 室 
和 IBM 实验 室 ， 招 揽 了 不 少 自然 语言 处 理 的 科学 家 。 不 少 人 试图 用 精确 
而 复杂 的 办 法 对 辛 格 设计 的 各 种 “AK-47” 进 行 改进 ， 后 来 发 现 几乎 所 
有 时 候 , 辛 格 的 简单 方法 都 接近 最 优 的 解决 方案 , 而 且 还 快 得 多 。 这 些 “ 徒 
劳 者 ”中 包括 两 个 世界 级 的 人 物 ， 乌 迪 ' 曼 波 ( Udi Manber ) 和 费 尔 南 
多 皮 耶 尔 ( Fernando Pereira ) 。 


2006 年 夏天 ， 乌 迪 . 曼 波 加 盟 Google。 曼 波 是 世界 上 最 时 一 批 研究 搜 
索 的 学 者 ， 之 前 是 大 学 教授 、 雅 虎 的 首席 科学 家 和 首席 算法 官 ( Chief 
Algorithm Officer， 这 个 职务 有 点 无 聊 ) 和 亚马逊 搜索 引擎 A9 的 CEO。 


3 

世界 著名 的 情报 处 
理 实验 室 ， 主 要 为 
美国 国防 部 、 国 家 
安全 局 (NSA) 等 
机 构 进行 情报 处 理 
的 研究 以 及 保密 情 
报 (Classified) 的 
处 理 。 
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曼 波 一 来 就 召集 了 十 几 名 科学 家 和 工程 师 ， 利 用 机 器 学 习 的 方法 来 改进 
辛 格 的 那些 简单 模型 。 经 过 半年 的 努力 ， 曼 波 发 现 他 似乎 是 在 做 无 用 
功 , 一 年 后 彻底 放弃 了 这 方面 的 努力 ， 从 此 转向 人 事 管理 工作 。2008 年 ， 
Google 花 了 很 大 代价 动员 了 世界 著名 的 语音 识别 和 自然 语言 处 理 专家 、 
宾夕法尼亚 大 学 计算 机 系 主任 费尔南多 * 皮 耶 尔 加 盟 。 皮 耶 尔 是 辛 格 在 
AT&T 时 的 直接 上 司 , 著名 的 有 限 状 态 机 AT&T FST 工具 的 作者 之 一 。 
皮 耶 尔 和 辛 格 对 做 好 计算 机 搜索 的 认识 完全 不 同 。 皮 耶 尔 认为 最 好 的 计 
算 机 搜索 算法 一 定 要 先 理解 文本 的 意思 ， 然 后 才能 准确 检索 。 因 此 ， 提 
高 搜索 质量 的 关键 是 文本 的 句法 分 析 。 辛 格 认为 ， 计 算 机 不 必 学 习 人 的 
做 法 ， 就 如 同 飞机 不 必 像 鸟 一 样 飞行 。 在 Google 内 部 两 人 的 关系 已 经 反 
了 个 个 儿 ， 辛 格 成 了 唱主角 的 。 他 原本 希望 皮 耶 尔 能 在 他 自己 的 基础 上 
帮 他 更 上 一 层 楼 ， 但 是 皮 耶 尔 的 技术 路 线 和 辛 格 明显 不 同 。 碍 于 老 上 司 
的 情 面 ， 辛 格 只 好 由 着 皮 耶 尔 按照 自己 的 想法 做 。 布 林 考虑 到 花 了 很 大 
代价 请 来 皮 耶 尔 ， 在 资源 上 也 给 了 他 足够 的 支持 。 但 是 ， 三 年 下 来 皮 耶 
尔 的 团队 还 是 毫 无 建树 。 这 可 能 也 可 以 解释 为 什么 微软 极 入 了 几 十 亿美 
元 在 搜索 上 依然 难以 超过 Google。 


辛 格 坚持 选择 简单 方案 的 另 一 个 原因 是 容易 解释 每 一 个 步骤 和 方法 背后 
的 道理 ， 这 样 不 仅 便于 出 了 问题 时 查 错 ( Debug ) ， 而 且 容易 找到 今后 改 
进 的 目标 。 今 天 , 整个 业界 的 搜索 质量 比 十 多 年 前 佩 奇 和 布 林 开始 研究 搜 
索 时 已 经 有 了 很 大 的 提高 , 大 的 改进 之 处 已 经 不 存在 了 。 现 在 几乎 所 有 的 
改进 都 非常 细微 : 通常 对 一 类 搜索 有 改进 的 方法 ,会 对 另外 某 一 类 搜索 产 
生 稍稍 负面 的 影响 。 这 时 候 ， 需 要 很 清楚 “所 以 然 ”， 才 能 找 出 这 个 方 
法 产生 负面 影响 的 原因 和 场景 ， 并 且 避 免 它 的 发 生 。 对 于 非常 复杂 的 方 
法 ， 尤 其 是 像 黑 盒子 似 的 基于 机 器 学 习 的 方法 ， 这 一 点 是 做 不 到 的 。 而 
如 果 每 一 项 改进 都 是 有 得 有 失 ， 甚 至 得 失 相差 无 几 ， 那 么 长 期 下 来 搜索 
的 质量 不 会 有 什么 明显 提升 。 辛 格 要 求 对 于 搜索 质量 的 改进 方法 都 要 能 
说 清楚 理由 ， 说 不 清楚 理由 的 改进 即使 看 上 去 有 效 也 不 会 采用 ， 因 为 这 
样 将 来 可 能 是 个 隐患 。 这 一 点 和 微软 、 雅 虎 把 搜索 质量 提升 当 作 一 个 黑 
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盒子 完全 不 同 。 辛 格 的 做 法 基本 上 能 保证 Google 搜索 的 质量 长 期 来 讲 是 
稳步 提高 。 


当然 ， 辛 格 之 所 以 总 是 能 找到 那些 简单 有 效 的 方法 ， 不 是 靠 直觉 ， 更 不 
是 撞 大 运 ， 这 首先 是 靠 他 丰富 的 研究 经 验 。 辛 格 早年 师 从 于 搜索 大 师 萨 
尔 顿 ( Salton ) 教授 ， 毕 业 后 就 职 于 AT&T 实验 室 。 在 那里 ， 他 和 两 个 
同事 半年 就 搭建 了 一 个 中 等 规模 的 搜索 引擎 ， 这 个 引擎 索引 的 网 页 数量 
虽然 无 法 和 商用 引擎 相 比 ， 但 是 准确 性 却 非常 好 。 早 在 AT&T， 他 就 
对 搜索 问题 的 各 个 细节 进行 了 仔细 的 研究 ， 他 的 那些 简单 而 有 效 的 解决 
方案 ,常常 是 深思 熟 虑 去 伪 存 真 的 结果 。 其 次 ， 辛 格 坚持 每 天 要 分 析 一 
些 搜索 结果 不 好 的 例子 ， 以 掌握 第 一 手 的 资料 ， 即 使 在 他 成 为 Google 
Fellow 以 后 ， 依 旧 如 此 。 这 一 点 ， 非 常 值得 从 事 搜索 研究 的 年 轻 丁 程 师 
学 习 。 事 实 上 ， 我 发 现 中 国 大 部 分 做 搜索 的 工程 师 在 分 析 不 好 的 结果 上 
花 的 时 间 远 比 功成名就 的 辛 格 要 少 。 


辛 格 非常 鼓励 年 轻 人 要 不 怕 失 败 ， 大 胆 尝试 。 有 一 次 ， 一 位 刚 毕业 不 久 
的 工程 师 因 为 把 带 有 错误 的 程序 推出 到 Google 的 服务 器 上 而 恤 必 不 可 终 
日 。 辛 格 安慰 她 说 ， 你 知道 ， 我 在 Google 犯 的 最 大 一 次 错误 是 曾经 将 所 
有 网 页 的 相关 性 得 分 全 部 变 成 了 零 ， 于 是 所 有 搜索 的 结果 全 部 是 随机 的 
了 。 这 位 工程 师 后 来 为 Google 开发 了 很 多 好 产品 。 


辛 格 在 AT&T 实验 室 时 确立 了 他 在 学 术 界 的 地 位 ， 但 是 ， 他 不 满足 
于 只 是 做 实验 写 论 文 ， 于 是 他 离开 实验 室 ， 来 到 当时 只 有 百 十 号 人 的 
Google。 在 这 里 ， 他 得 以 施展 才智 ， 重 写 了 Google 的 排名 算法 ， 并 且 一 
直 在 负责 改进 它 。 辛 格 因为 会 不 得 放下 两 个 孩子 , 很 少 参加 各 种 会 议 ， 
但 是 他 仍然 被 学 术 界 公认 为 是 当今 最 权威 的 网 络 搜索 专家 。2005 年 ， 辛 
格 作为 杰出 校友 被 请 回 母校 康 奈 尔 大 学 计算 机 系 ， 在 40 周年 系 庆 上 作 报 
告 。 获 得 这 一 殊荣 的 还 有 大 名 频频 的 美国 工程 院 院士 ， 计 算 机 独立 磁盘 
元 余 阵列 ( RAID ) 的 发 明 人 凯 茨 ( Randy Katz ) 教授 。 


辛 格 和 我 在 性 格 和 生活 习惯 上 有 很 大 的 不 同 ， 他 基本 上 是 个 素食 者 ， 至 
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少 过 去 我 不 是 很 喜欢 他 家 的 饭菜 。 但 是 我 们 有 一 点 非常 相似 ， 就 是 遵循 
简单 的 哲学 。 


2012 年 ， 辛 格 当选 美国 工程 院 院士 ， 并 出 任 主管 Google 搜索 的 高 级 副 
总 裁 。 


第 14 章 余弦 定理 和 新 闻 的 分 类 


世界 上 有 些 事情 常常 超 乎 人 们 的 想象 。 余 弦 定 理 和 新 闻 的 分 类 似乎 是 两 件 
八 杆子 打 不 着 的 事 ， 但 是 它们 确 有 紧密 的 联系 。 具 体 地 说 ， 新 闻 的 分 类 很 
大 程度 上 依靠 余弦 定理 。 


2002 年 夏天 ,Google 推出 了 自己 的 “新 闻 ” 服 务 。 和 传统 媒体 的 做 法 不 同 ， 
这 些 新 闻 不 是 记者 写 的 ， 也 不 是 人 工 编辑 的 ， 而 是 由 计算 机 整理 、 分 类 和 
聚合 各 个 新 闻 网 站 的 内 容 ， 一 切 都 是 自动 生成 的 。 这 里 面 的 关键 技术 就 是 
新 闻 的 自动 分 类 。 


1 新 闻 的 特征 向 量 


所 谓 新 闻 的 分 类 ， 或 者 更 广义 地 讲 任何 文本 的 分 类 ， 无非 是 要 把 相似 的 
新 闻 放 到 同一 类 中 。 如 果 让 编辑 来 对 新 闻 分 类 , 他 一 定 是 先 把 新 闻 读 懂 ， 
然后 找到 它 的 主题 ， 最 后 根据 主题 的 不 同 对 新 闻 进 行 分 类 。 但 是 计算 机 
根本 读 不 懂 新 闻 ， 虽 然 一 些 商业 人 士 和 爱 炫 烃 自己 才学 的 计算 机 专家 宣 
称 计算 机 能 读 懂 新 闻 。 计 算 机 本 质 上 只 能 做 快速 计算 。 为 了 让 计算 机 能 
够 “ 算 ” 新 闻 ( 而 不 是 读 新 闻 ) ， 就 要 求 我 们 首先 要 把 文字 的 新 闻 变 成 
可 以 计算 的 一 组 数字 ， 然 后 再 设计 一 个 算法 来 算出 任意 两 篇 新 闻 的 相 
似 性 。 


128 


1 
“幸福 的 家 庭 都 是 相 
似 的 ， 不 幸 的 家 庭 
各 有 各 的 不 幸 ”。 


2 
如 果 把 词典 的 大 小 
限制 在 65 535 词 以 
内 ， 在 计算 机 中 只 
要 用 两 个 字 节 就 能 
表示 一 个 词 。 


川 数学 之 美 


首先 让 我 们 来 看 看 怎样 找 一 组 数字 ( 或 者 说 一 个 向 量 ) 来 描述 一 篇 新 闻 。 
新 闻 是 传递 信息 的 ， 而 词 是 信息 的 载体 ， 新 闻 的 信息 和 词 的 语义 是 联系 
在 一 起 的 。 套 用 俄罗斯 文豪 托 尔 斯 泰 在 《安娜 * 卡 列 尼 娜 》 开 篇 的 那 句 
话 ! 来 讲 , “同一 类 新 闻 用 词 都 是 相似 的 , 不 同类 的 新 闻 用 词 各 不 相同 ”。 
当然 ， 一 篇 新 闻 有 很 多 词 ， 有 些 词 表达 的 语义 重要 ， 有 些 相 对 次 要 。 那 
么 如 何 确定 哪些 重要 ， 哪 些 次 要 呢 ? 首先 ， 直 觉 告诉 我 们 含义 丰富 的 实 
词 一 定 比 “的 、 地 、 得 ”这 些 助 间 ,或 者 “之 乎 者 也 ”这 样 的 虚词 重要 ， 
这 点 是 肯定 的 。 接 下 来 ， 需 要 进一步 对 每 个 实 词 的 重要 性 进行 度量 。 回 
忆 一 下 我 们 在 “如 何 确定 网 页 和 查询 的 相关 性 ”一 章 中 介绍 的 单 文 本 词 
汇 频率 / 逆 文 本 频率 值 TF-IDF 的 概念 ， 在 一 篇 文章 中 ， 重 要 的 词 TF- 
IDF 值 就 高 。 不 难 想象 ， 和 新 闻 主 题 有 关 的 那些 实 词 频率 高 ，TF-IDF 值 
很 大 。 


现在 我 们 找到 了 一 组 来 描述 新 闻 主题 的 数字 : 对 于 一 篇 新 闻 中 的 所 有 实 
词 ， 计 算出 它们 的 TF-IDF 值 。 把 这 些 值 按照 对 应 的 实 词 在 词汇 表 的 位 
置 依次 排列 ， 就 得 到 一 个 向 量 。 比 如 ,词汇 表 中 有 64 000 个 词 *， 其 编号 
和 词 如 表 14.1 所 示 。 


表 14.1 统计 词汇 表 
单词 编号 汉字 词 
阿 
2 啊 
3 阿斗 
4 阿姨 
789 服装 
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在 某 一 篇 特定 的 新 闻 中 , 这 64 000 个 词 的 TF-IDF 值 分 别 如 表 14.2 所 示 : 


表 14.2 某 篇 新 闻 对 应 的 TF-IDF 值 
单词 编号 TF-IDF 值 


0 


1 
2 0.0034 
3 0 
4 0.00052 
789 0034 
64000 0.075 


如 果 单 词 表 中 的 某 个 词 在 新 闻 中 没有 出 现 ， 对 应 的 值 为 零 ， 那 么 这 
64000 个 数 ， 组 成 一 个 64000 维 的 向 量 。 我 们 就 用 这 个 向 量 来 代表 这 篇 
新 闻 ， 并 成 为 新 闻 的 特征 向 量 ( Feature Vector ) 。 每 一 篇 新 闻 都 可 以 对 
应 这 样 一 个 特征 向 量 ， 向 量 中 每 一 个 维度 的 大 小 代表 每 个 词 对 这 篇 新 闻 
主题 的 贡献 。 当 新 闻 从 文字 变 成 了 数字 后 , 计算 机 就 有 可 能 “ 算 一 算 ” 
新 闻 之 间 是 否 相 似 了 。 


居 一 0, 0, 0, 3, 0, …, 28, 0, 0, 0, 3 
居 一 : 0, 1 0, 8 0, 10, 0.2 
局 一 0 D0, 325105 55.2 .0.0531 


图 14.1 一 篇 篇 文章 变 成 了 一 串 串 数字 
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2 ”向量 距离 的 度量 


世界 各 国 无 论 是 哪 门 语言 的 “语文 课 ” ( Language Art ) ， 老 师 教授 写 
作 时 都 会 强调 特定 的 主题 用 特定 的 描述 词 。 几 千年 来 ， 人 类 已 经 形成 了 
这 样 的 写作 习惯 。 因 此 ， 同 一 类 新 闻 一 定 是 某 些 主题 词 用 得 较 多 ， 另 外 
一 些 词 则 用 得 少 。 比 如 金融 类 的 新 闻 , 这 些 词 出 现 的 频率 就 很 高 : 股票 ， 
利息 , 债券 , 基金 , 银行 , 物价 , 上 涨 。 而 这 些 词 出 现 的 就 少 : 二 氧化 碳 ， 
宇宙 ,诗歌 ， 木 匠 ， 诺 贝尔 ， 包 子 。 反 映 在 每 一 篇 新 闻 的 特征 上 ， 如 
果 两 篇 新 闻 属于 同一 类 , 它们 的 特征 向 量 在 某 几 个 维度 的 值 都 比较 大 ,而 
在 其 他 维度 的 值 都 比较 小 。 反 过 来 看 ， 如 果 两 篇 新 闻 不 属于 同一 类 ,由 于 
用 词 的 不 同 ， 它 们 的 特征 向 量 中 ， 值 较 大 的 维度 应 该 没有 什么 交集 。 这 
样 就 定性 地 认识 到 两 篇 新 闻 的 主题 是 否 接近 ,取决 于 它们 的 特征 向 量 “ 长 
得 像 不 像 ”。 当 然 , 我 们 还 需要 定量 地 衡量 两 个 特征 向 量 之 间 的 相似 性 。 


学 过 向 量 代数 的 人 都 知道 ， 向 量 实际 上 是 多 维 空间 中 从 原点 出 发 的 有 向 
线段 。 


二 


图 14.2 ”向量 的 夹 角 是 衡量 两 个 向 重 相近 程度 的 度量 。 图 中 左边 的 两 个 向 量 距离 较 近 ， 右 边 
两 个 距离 较 远 
不 同 的 新 闻 ， 因 为 文本 长 度 的 不 同 ， 它 们 的 特征 向 量 各 个 维度 的 数值 也 
不 同 。 一 篇 10 000 字 的 文本 ， 各 个 维度 的 数值 都 比 一 篇 500 字 的 文本 来 
得 大 ， 因 此 单纯 比较 各 个 维度 的 大 小 并 没有 太 大 意义 。 但 是 ,向 量 的 方 
向 却 有 很 大 的 意义 。 如 果 两 个 向 量 的 方向 一 致 ， 说 明 相 应 的 新 闻 用 词 的 
比例 基本 一 致 。 因 此 ， 可 以 通过 计算 两 个 向 量 的 夹 角 来 判断 对 应 的 新 闻 
主题 的 接近 程度 。 而 要 计算 两 个 向 量 的 夹 角 ， 就 要 用 到 余弦 定理 了 。 世 
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如 上 图 14.2 中 ， 左 边 两 个 向 量 的 夹 角 小 ， 距 离 就 较 “ 近 ”， 相 反 ， 右 边 
两 个 向 量 的 夹 角 大 ， 距 离 就 “ 远 ”。 


我 们 对 余弦 定理 都 不 陌生 ， 它 描述 了 三 角形 中 任何 一 个 夹 角 和 三 个 边 的 
关系 ， 换 名 话说， 给 定 三 角形 的 三 条 边 ， 可 以 用 余弦 定理 求 出 三 角形 各 
个 角 的 角度 。 假定 三 角形 的 三 条 边 为 a ,b 和 c, 对 应 的 三 个 角 为 A, B 和 C。 


A B 


图 14.3 余弦 的 计算 


那么 L4 的 余弦 


已 2 十 2 一 02 
cos(A) = (14.1) 


如 果 将 三 角形 的 两 边 b 和 c 看 成 是 两 个 以 4 为 起 点 的 向 量 ， 那 么 上 述 公式 
等 价 于 


4 = <bc> 
cos( )= TI (14.2) 


其 中 ,分 母 表示 两 个 向 量 b 和 c 的 长 度 ， 分 子 表示 两 个 向 量 的 内 积 。 举 一 
个 具体 的 例子 ,假如 新 闻 X 和 新 闻 Y 对 应 的 向 量 分 别 是 


Xi X2, -…, X64000 和 Y1,Y2, 1764000 ， 


那么 它们 夹 角 的 余弦 等 于 


X1y1 十 xzy2 十 十 X6400064000 


0088 = 一 站 全 下 一 
TT tt (143) 
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3 
目前 是 18M 华 生 实 
验 室 的 科学 家 。 


4 
Radu Florian and 
David Yarowsky, 
Dynamic nonlocal 
language modeling 
via hierarchical 
topic-based 
adaptation, ACL 
1999 


由 于 向 量 中 的 每 一 个 变量 都 是 正 数 ， 因 此 余弦 的 取 值 在 0 和 1 之 间 , 也 就 
是 说 夹 角 在 0 度 到 90 度 之 间 。 当 两 条 新 闻 向 量 夹 角 的 余弦 等 于 1 时 ， 这 
两 个 向 量 的 夹 角 为 零 ， 两 条 新 闻 完全 相同 ; 当 夹 角 的 余弦 接近 于 1 时 , 两 
条 新 闻 相 似 ， 从 而 可 以 归 成 一 类 ; 夹 角 的 余弦 越 小 ， 夹 角 越 大 ， 两 条 新 
闻 越 不 相关 。 当 两 个 向 量 正 交 时 ( 90 度 ) ， 夹 角 的 余弦 为 零 ， 说 明 两 篇 
新 闻 根本 没有 相同 的 主题 词 ， 它 们 毫 不 相关 。 


现在 把 一 篇 篇 文字 的 新 闻 变 成 了 按 词典 顺序 组 织 起 来 的 数字 ( 特征 向 量 )， 
又 有 了 计算 相似 性 的 公式 ， 就 可 以 在 此 基础 上 讨论 新 闻 分 类 的 算法 了 。 具 
体 的 算法 分 为 两 种 情形 。 第 一 种 比较 简单 ， 假 定 我 们 已 知 一 些 新 闻 类 别 
的 特征 向 量 xi,x2,… x ， 那 么 对 于 任何 一 个 要 被 分 类 的 新 闻 Y， 很 容易 计 
算出 它 和 各 类 新 闻 特 征 向 量 的 余弦 相似 性 ( 距离 ) ， 并 且 分 到 它 该 去 的 那 
一 类 中 。 至 于 这 些 新 闻 类 别 的 特征 向 量 ， 既 可 以 手工 建立 ( 工作 量 非常 
大 而 且 不 准确 ) ， 也 可 以 自动 建立 (以 后 会 介绍 ) 。 第 二 种 情形 就 比较 
麻烦 了 ， 即 如 果 事 先 没 有 这 些 新 闻 类 别 的 特征 向 量 怎 么 办 。 我 在 约翰 
堆 普 金 斯 大 学 的 同学 弗 洛 里 安 ( Radu Florian ) * 和 教授 雅 让 斯 基 给 了 一 
个 自 底 向 上 不 断 合并 的 办 法 “， 大 致 思想 如 下 : 


1， 计 算 所 有 新 闻 之 间 两 两 的 余弦 相似 性 ， 把 相似 性 大 于 一 个 冰 值 
的 新 闻 合 并 成 一 个 小 类 ( Subclass ) 。 这 样 N 篇 新 闻 就 被 合并 成 NN 个 
小 类 ， 当 然 < N。 


2.， 把 每 个 小 类 中 所 有 的 新 闻 作为 一 个 整体 , 计算 小 类 的 特征 向 量 ， 
再 计算 小 类 之 间 两 两 的 余弦 相似 性 ， 然 后 合并 成 大 一 点 的 小 类 ， 假 
如 有 NN 个 ， 当 然 N, < Ni。 


这 样 不 断 做 下 去 ， 类别 越 来 越 少 , 而 每 个 类 越 来 越 大 。 当 某 一 类 太 大 时 ， 
这 一 类 里 一 些 新 闻 之 间 的 相似 性 就 很 小 了 ， 这 时 就 要 停止 上 述 选 代 的 过 
程 了 。 至 此 ， 自 动 分 类 完成 。 下 图 是 弗 洛 里 安 给 出 的 一 个 真实 的 文本 分 
类 和 迭代 和 聚合 的 过 程 ， 图 中 左边 的 每 一 个 点 都 代表 一 篇 文章 ， 因 为 数量 
太 多 , 因此 密密麻麻 地 连 成 了 一 片 。 每 一 次 迭代 , 子 类 数量 就 不 断 减少 ， 
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当 子 类 的 数量 比较 少时 ， 就 会 看 清楚 这 些 子 类 了 。 


图 14.4 ”真实 的 文本 分 类 聚合 过 程 
当然 ,这 里 面 有 很 多 的 技术 细节 , 有 兴趣 和 基础 的 读者 可 以 读 他 们 的 论文 。 


弗 洛 里 安 和 雅 让 斯 基 1998 年 做 这 项 工作 的 动机 很 有 意思 。 当 时 雅 让 斯 基 
是 某 个 国际 会 议 的 程序 委员 会 主席 ， 需 要 把 提交 上 来 的 几 百 篇 论文 发 给 
各 个 专家 去 评审 决定 是 否 录用 。 为 了 保证 评审 的 权威 性 ， 需 要 把 每 个 研 
究 方 向 的 论文 交 给 这 个 方向 最 有 权威 的 专家 。 虽 然 论文 的 作者 自己 给 论 
文 定 了 方向 , 但 是 范围 太 广 ， 没 有 什么 指导 意义 。 雅 让 斯 基 当 然 没 有 时 
间 浏 览 这 近 千 篇 论文 ， 然 后 再 去 分 发 ， 于 是 就 想 了 这 个 将 论文 自动 分 类 
的 方法 ， 由 他 的 学 生 弗 洛 里 安 很 快 实现 了 。 接 下 来 几 年 的 会 议 都 是 这 么 
选择 评审 专家 的 。 从 这 件 事 我 们 可 以 看 出 美国 人 做 事 的 一 个 习惯 : 美国 
人 总 是 倾向 于 用 机 器 ( 计算 机 ) 代替 人 工 来 完成 任务 。 虽 然 在 短期 需要 
做 一 些 额外 的 工作 ， 但 是 从 长 远 看 可 以 节省 很 多 时 间 和 成 本 。 


余弦 定理 就 这 样 通过 新 闻 的 特征 向 量 和 新 闻 分 类 联系 在 一 起 。 我 们 在 中 
学 学 习 余 弦 定 理 时 , 丽 怕 很 难 想象 它 可 以 用 来 对 新 闻 进 行 分 类 。 在 这里， 
我 们 再 一 次 看 到 数学 工具 的 用 途 。 
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3 ”延伸 阅读 : 计算 向 量 余弦 的 技巧 


读者 背景 知识 : 数值 分 析 。 


3.1 大 数据 量 时 的 余弦 计算 


利用 公式 ( 14.2 ) 计算 两 个 向 量 夹 角 时 ， 计 算 量 为 0(lal + 1bl) ， 如 果 假 
定 其 中 一 个 向 量 更 长 ， 不 失 一 般 性 lal > |b| ， 这 样 复杂 度 为 0(|al) 。 如 
果 要 比较 一 篇 新 闻 和 所 有 其 他 N 篇 新 闻 的 相关 性 ， 那 么 计算 复杂 度 为 
ON lal) 。 如 果 要 比较 所 有 篇 新 闻 之 间 两 两 的 相关 性 ， 计 算 复 杂 度 为 
O(N? .la 。 注 意 ， 这 还 只 是 一 次 迭代 。 因 此 ， 这 个 计算 量 是 很 大 的 。 我 
们 假定 词汇 表 的 大 小 为 10 万 ， 那 么 向 量 的 长 度 也 是 这 么 大 ， 假 定 需 要 分 
类 的 新 闻 为 10 万 篇 ,总 的 计算 量 在 105 这 个 数量 级 。 如 果 用 100 台 服 务 器 ， 
每 台 服 务 器 的 计算 能 力 是 每 秒 1 亿 次 ， 那 么 每 次 迭代 的 计算 时 间 在 10 万 
秒 ， 即 大 约 1 天 。 几 十 次 迭代 就 需要 两 三 个 月 ， 这 个 速度 显然 很 慢 。 


这 里 面 可 简化 的 地 方 非常 多 。 首 先 分 母 部 分 ( 向量 的 长 度 ) 不 需要 重 
复 计算 ,计算 向 量 a 和 向 量 b 的 余弦 时 ,它们 的 长 度 可 以 存 起 来 ， 等 
计算 向 量 a 和 向 量 c 的 余弦 时 , 将 a 的 长 度 直接 调 出 来 使 用 即 可 。 这样， 
上 面 的 计算 量 可 以 节省 2/3， 也 就 是 只 有 公式 ( 14.2 ) 中 分 子 的 部 分 需要 
两 两 计算 。 当 然 这 还 没有 从 根本 上 降低 算法 的 复杂 度 。 


第 二 个 可 以 简化 的 地 方 就 是 在 计算 〈 14.2 ) 中 的 分 子 ， 即 两 个 向 量 内 积 的 
时 候 ， 只 需 考虑 向 量 中 的 非 零 元 素 即 可 。 那 么 计算 的 复杂 度 取决 于 两 个 
向 量 中 ， 非 零 元 素 个 数 的 最 小 值 。 如 果 一 篇 新 闻 的 一 般 长 度 不 超过 2 000 
词 ， 那 么 非 零 元 素 的 个 数 一 般 也 就 是 1000 词 左右 ， 这 样 计算 的 复杂 度 大 
约 可 以 下 降 100 倍 , 计算 时 间 从 “天 ”这 个 量 级 降 到 十 几 分 钟 这 个 量 级 。 


第 三 个 简化 是 删除 虚词 , 这 里 的 虚词 包括 搜索 中 的 非 必 留 词 ; 诸如 “的 ”、 
“是 ”、“ 和 ” ,以 及 一 些 连词 副词 和 介词 , 比如“ 因 为”、“ 所 以 ”、“ 非 常 ” 
等 等 。 我 们 在 上 一 节 中 分 析 过 , 只 有 同一 类 新 闻 , 用 词 才 有 很 大 的 重复 性 ， 
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不 同类 的 新 闻 用 词 不 大 相同 。 因 此, 去 掉 这 些 虚 词 后 , 不 同类 的 新 闻 
即使 它们 的 向 量 中 还 有 不 少 非 零 元 素 ， 但 是 共同 的 非 零 元 素 并 不 多 ， 因 
此 要 做 的 乘法 并 不 多 。 大 多 数 情况 下 ， 都 可 以 跳 过 去 ( 因为 非 零 元 素 乘 
以 零 ， 结果 还 是 零 ) 。 这 样 ， 计 算 时 间 还 可 以 缩短 几 倍 。 因 此 ，10 万 
篇 新 闻 两 两 比较 一 下 , 计算 时 间 也 就 是 几 分 钟 而 已 。 如 果 做 几 十 次 迭代 ， 
可 以 在 一 天 内 计算 完 。 


特别 需要 指出 的 是 ， 删 除 虚词 后 ， 不 仅 可 以 提高 计算 速度 ， 对 新 闻 分 类 
的 准确 性 也 大 有 好 处 ， 因 为 虚词 的 权重 其 实 是 一 种 干扰 分 类 正常 进行 的 
噪音 。 这 一 点 , 和 通信 中 过 滤 掉 低频 噪音 是 同样 的 原理 。 通 过 这 件 事 ， 
我 们 也 可 以 看 出 自然 语言 处 理 和 通信 的 很 多 道理 是 相通 的 。 


3.2 位置 的 加 权 


和 计算 搜索 相关 性 一 样 ， 出 现在 文本 不 同位 置 的 词 在 分 类 时 的 重要 性 也 
不 相同 。 显 然 ， 出 现在 标题 中 的 词 对 主题 的 贡献 远 比 出 现在 新 闻 正文 中 
的 重要 。 而 即使 在 正文 中 ， 出 现在 文章 开头 和 结尾 的 词 比 出 现在 中 间 的 
词 重要 。 在 中 学 学 习 语文 和 大 学 学 习 英 语文 学 时 ， 老 师 都 会 强调 这 一 点 
一 阅读 时 要 特别 关注 第 一 段 和 最 后 一 段 , 以 及 每 个 段落 的 第 一 个 句子 。 
在 自然 语言 处 理 中 这 个 规律 依然 有 用 。 因 此 ， 要 对 标题 和 重要 位 置 的 词 
进行 额外 的 加 权 ， 以 提高 文本 分 类 的 准确 性 。 


4 小 结 


本 章 介绍 的 这 种 新 闻 归 类 的 方法 ， 准 确 性 很 好 ， 适 用 于 被 分 类 的 文本 集 
合 在 百 万 这 个 数量 级 。 如 果 大 到 亿 这 个 数量 级 ， 那 么 计算 时 间 还 是 比较 
长 的 。 对 于 更 大 规模 的 文本 处 理 , 我 们 将 在 下 一 章 中 介绍 一 种 更 快速 ， 
但 是 相对 粗糙 一 些 的 方法 。 
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第 15 章 矩阵 运算 和 文本 处 理 中 的 
两 个 分 类 问题 


我 在 大 学 学 习 线 性 代数 时 , 实在 想 不 出 这 门 课 除了 告诉 我 们 如 何 解 线性 方 
程 外 ， 还 能 有 什么 别 的 用 途 。 关 于 矩阵 的 许多 概念 ， 比 如 特征 值 等 ， 更 
是 脱离 日 常生 活 。 后 来 在 数值 分 析 中 又 学 了 很 多 矩阵 的 近似 算法 ， 还 是 
看 不 到 可 以 应 用 的 地 方 。 当 时 选 这 些 课 ， 完 全 是 为 了 挣 学 分 得 学 位 ， 
天 大 部 分 大 学 生 恶 怕 也 是 如 此 。 我 想 ， 后 由 和 生生 省 过 关 和 
经 历 。 直 到 后 来 长 期 做 自然 语言 处 理 的 研究 ， 我 才 发 现 数学 家 们 提出 的 
那些 矩阵 的 概念 和 算法 ， 是 有 实际 应 用 的 意义 的 。 


1 文本 和 词汇 的 矩阵 


在 自然 语言 处 理 中 ,最 常见 的 两 个 分 类 问题 分 别 是 ,将 文本 按 主题 归 类 ( 比 
如 将 所 有 介绍 奥运 会 的 新 闻 归 到 体育 类 ) 和 将 词汇 表 中 的 字 词 按 意 思 归 
类 ( 比如 将 各 种 运动 的 项 目 名 称 都 归 成 体育 一 类 ) 。 这 两 个 分 类 问题 都 
可 以 通过 矩阵 运算 来 圆满 地 、 一 次 性 地 解决 。 为 了 说 明 如 何 用 答 阵 这 个 
工具 来 解决 这 两 个 问题 ， 让 我 们 来 看 一 看 前 一 章 中 介绍 的 余弦 定理 和 新 
闻 分 类 的 本 质 。 


新 闻 分 类 乃至 各 种 分 类 其 实 是 一 个 聚 类 问题 ， 关 键 是 计算 两 篇 新 闻 的 相 
似 程度 。 为 了 完成 这 个 过 程 , 我 们 要 将 新 闻 变 成 代表 它们 内 容 的 实 词 ， 
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然后 再 变 成 一 组 数 ， 具 体 说 是 向 量 ， 最 后 求 这 两 个 向 量 的 夹 角 。 当 这 两 
个 向 量 夹 角 很 小 时 ， 新 闻 就 相关 ; 当 它 们 垂直 或 者 说 正 交 时 ， 新 闻 则 无 
关 。 从 理论 上 讲 ， 这 种 算法 非常 漂亮 。 但 是 因为 要 对 所 有 新 闻 做 两 两 计 
算 ， 而 且 要 进行 很 多 次 迭代 ， 因 此 耗 时 特别 长 ， 尤 其 是 当 新 闻 的 数量 很 
大 ， 同 时 词 表 也 很 大 的 时 候 。 我 们 希望 有 一 个 办 法 ， 一 次 就 能 把 所 有 新 
闻 相 关 性 计算 出 来 。 这 个 一 步 到 位 的 办 法 是 利用 矩阵 运算 中 的 奇异 值 分 
解 (Singular Value Decomposition， 简 称 SVD ) 。 


现在 让 我 们 来 看 看 奇异 值 分 解 是 怎么 回 事 。 首 先 ， 需 要 用 一 个 大 矩阵 4 来 
描述 成 千 上 万 篇 文章 和 几 十 上 百 万 词 的 关联 性 。 在 这 个 矩阵 中 ， 每 一 行 
对 应 一 篇 文章 ， 每 一 列 对 应 一 个 词 ， 如 果 有 NN 个 词 ，M 篇 文章 ， 那么 就 
是 一 个 如 下 所 示 的 M xN 的 矩阵 。 


Qu … QH … an 
=| aa … oO … auw (15.1 ) 
QM1 … Qi … QNN 


其 中 , 第 i 行 、 第 j 列 的 元 素 %y ， 是 字典 中 第 j 个 词 在 第 i 篇 文章 中 出 
现 的 加 权 词 频 ( 比如 用 词 的 TF-IDF 值 ) 。 读 者 也 许 能 猜 到 ， 这 个 矩阵 
会 非常 非常 大 ， 比 如 M = 1000000，N = 500000, 100 万 乘 以 50 万 ， 即 
5 000 亿 个 元 素 ， 如 果 以 5 号 字体 打印 出 来 ， 有 两 个 西湖 那么 大 ! 


奇异 值 分 解 ， 就 是 把 上 面 这 样 一 个 大 矩阵 ， 分 解 成 三 个 小 矩阵 相 乘 ， 如 
图 15.1 所 示 。 比 如 把 上 面 例子 的 矩阵 分 解 成 一 个 100 万 乘 以 100 的 矩 
阵 X， 一 个 100 乘 以 100 的 矩阵 B， 和 一 个 100 乘 以 50 万 的 矩阵 Y。 这 
三 个 矩阵 的 元 素 总 数 加 起 来 也 不 过 1.5 亿 ， 不 到 原来 的 三 千 分 之 一 。 相 应 
的 存储 量 和 计算 量 都 会 小 三 个 数量 级 以 上 。 
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[s] [> 
4 po X| 100x100 100x500000 


1000 000x500 000 1000000x100 


15.1 大 矩阵 分 解 成 三 个 小 矩阵 


三 个 矩阵 有 非常 清晰 的 物理 含义 。 第 一 个 矩阵 外 是 对 词 进行 分 类 的 一 个 
结果 。 它 的 每 一 行 表示 一 个 词 ， 每 一 列表 示 一 个 语义 相近 的 词类 ， 或 者 
简称 为 语义 类 。 这 一 行 的 每 个 非 零 元 素 表 示 这 个 词 在 每 个 语义 类 中 的 重 
要 性 (或 者 说 相关 性 ) ， 数 值 越 大 越 相 关 。 举 一 个 4x 2 的 小 矩阵 的 例子 
来 说 明 。 


0.7 0.15 
0.22 0.49 
0 0.92 
0.3 0.03 


(15.2) 


这 里 面 有 四 个 词 ， 两 个 语义 类 ， 第 一 个 词 和 第 一 个 语义 类 比较 相关 ( 相 
关 性 0.7 ) ,和 第 二 个 语义 类 不 太 相关 ( 相关 性 0.15 ) 。 第 二 个 词 正 好 相反 。 
第 三 个 词 只 和 第 二 个 语义 类 相关 ， 和 第 一 个 完全 无 关 。 第 四 个 词 和 每 一 
类 都 不 太 相关 ， 因 为 它 对 应 的 两 个 元 素 0.3 和 0.03 都 不 大 ， 但 是 相 比较 
而 言 ， 和 第 一 类 相对 相关 ， 而 第 二 类 基本 无 关 。 


最 后 一 个 矩阵 Y 是 对 文本 的 分 类 结果 。 它 的 每 一 列 对 应 一 个 文本 ， 每 一 
行 对 应 一 个 主题 。 这 一 列 中 每 个 元 素 表示 这 篇 文本 在 不 同 主题 中 的 相关 
性 。 我 们 同样 用 一 个 2x4 的 小 矩阵 来 说 明 。 


Y=|07 015 0.22 0.39 


0 0.92 0.08 0.53 (158 ) 


这 里 面 有 四 篇 文本 , 两 个 主题 。 第 一 篇 文本 很 明显 ,属于 第 一 个 主题 。 
第 二 篇 文本 和 第 二 个 主题 非常 相关 ( 相似 性 0.92 ) ， 而 和 第 一 个 有 一 点 
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点 关系 ( 0.15 ) 。 第 三 篇 文本 和 两 个 主题 都 不 很 相关 ， 相 比较 而 言 ， 和 第 
一 个 主题 的 关系 稍微 近 一 点 。 第 四 篇 文本 ， 和 两 个 主题 都 有 一 定 的 相关 
性 ， 不 过 和 第 二 个 主题 更 接近 一 些 。 如 果 每 一 列 只 保留 最 大 值 ， 其 余 的 
都 改 为 零 ， 那 么 每 一 篇 文本 都 被 唯一 地 分 到 一 类 主题 中 ， 即 第 一 、 三 篇 
文本 属于 第 一 个 主题 ,第 二 、 四 篇 属于 第 二 个 主题 。 这 个 结果 和 我 们 在 
上 一 章 利用 余弦 定理 做 分 类 得 到 的 情况 类 似 一 每 篇 文本 都 被 分 到 了 
一 个 主题 。 


中 间 的 矩阵 则 表示 词 的 类 和 文章 的 类 之 间 的 相关 性 。 我 们 用 下 面 2x 2 的 
矩阵 来 说 明 。 
(15.4) 


a-| 0.7 33| 


0.18 0.63 


在 这 个 矩阵 日 中 ， 第 一 个 词 的 语义 类 和 第 一 个 主题 相关 ， 和 第 二 个 主题 
没有 太 多 关系 。 而 第 二 个 词 的 语义 类 则 相反 。 


因此 ， 只 要 对 关联 矩阵 4 进行 一 次 奇异 值 分 解 ， 就 可 以 同时 完成 近义词 
分 类 和 文章 的 分 类 。 同 时 ， 还 能 得 到 每 个 主题 和 每 个 词 的 语义 类 之 间 的 
相关 性 。 这 个 结果 非常 漂亮 ! 


现在 剩 下 的 唯一 问题 ， 就 是 如 何 用 计算 机 进行 奇异 值 分 解 。 这 时 ， 线 性 
代数 中 的 许多 概念 ， 比 如 矩阵 的 特征 值 ， 以 及 数值 分 析 的 各 种 算法 等 等 
就 统统 派 上 用 场 了 。 对 于 不 大 的 矩阵 ， 比 如 几 万 乘 以 几 万 的 矩阵 ， 用 计 
算 机 上 的 数学 工具 MATLAB 就 可 以 进行 了 。 但 是 更 大 的 矩阵 ， 比 如 上 
百 万 乘 以 上 百 万 ， 奇 异 值 分 解 的 计算 量 非常 大 ， 就 需要 很 多 台 计 算 机 并 
行 处 理 了 。 虽 然 Google 早 就 有 了 MapReduce 等 并 行 计算 的 工具 ,但 是 
由 于 奇异 值 分 解 很 难 拆 成 不 相关 子 运算 ， 即 使 在 Google 内 部 以 前 也 无 法 
利用 并 行 计 算 的 优势 来 分 解 矩阵 。 直 到 2007 年 ，Google 中 国 ( 谷歌) 
的 张 智 威 博士 带领 几 个 中 国 的 工程 师 及 实习 生 实现 了 奇异 值 分 解 的 并 行 
算法 ， 这 是 Google 中 国 对 世界 的 一 个 贡献 。 
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2 延伸 阅读 : 奇异 值 分 解 的 方法 和 应 用 场景 


读者 背景 知识 : 线性 代数 。 


在 这 一 节 里 ， 我 们 大 致 介绍 一 下 奇异 值 分 解 的 算法 。 在 严格 数学 意义 上 
的 奇异 值 分 解 是 这 样 定义 的 ， 抢 阵 4 可 以 如 下 分 解 成 三 个 矩阵 的 乘积 。 


hun = Xum X Bun X Wuw C155) 


其 中 X 是 一 个 酉 矩阵 ( Unitary Matrix ) ,Y 则 是 一 个 酉 矩阵 的 共 罗 矩 阵 。 
西 和 矩阵 的 定义 是 它 和 它 的 共 固 矩阵 转 置 相 乘 等 于 单位 阵 ， 因 此 ， 它 们 都 
是 方形 的 和 矩阵。 而 8 是 一 个 对 角 阵 ， 即 只 有 对 角 线 上 是 非 零 值 。 维 基 百 
科 给 出 了 这 样 一 个 实例 : 


2 
0 
0 (15.6) 
0 


口 口 w 口 
口 口 口 品 


ooor 
oowo 
ogee 
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0 
0 V08 (15.7) 
1 
-V08 0 0 


很 容易 验证 X 和 Y 都 是 酉 矩阵 。 


从 这 个 公式 来 看 ， 未 作 近似 的 奇异 值 分 解 没有 像 上 一 节 中 展示 的 那样 降 
低 矩 阵 的 维度 。 但 是 由 于 对 角 和 矩阵 互 对 角 线 上 的 元 素 很 多 值 相 对 其 他 的 
非常 小 ， 或 者 干脆 为 零 ， 可 以 省 略 。 因 此 ， 奇 异 值 分 解 后 ， 一 个 超大 矩 
阵 就 变 成 我 们 上 一 节 中 三 个 小 矩阵 的 乘积 。 
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1 
除了 两 行 对 角 线 元 
素 非 零 ， 剩 下 的 都 
是 零 。 


奇异 值 分 解 一 般 分 两 步 进行 。 首 先 ， 将 矩阵 4 变换 成 一 个 双 对 角 和 矩阵 `， 
这 个 过 程 的 计算 量 是 0(MN?)， 当 然 这 里 假设 M > N， 和 否则 就 是 O (NM?)。 
当然 ,我们 依然 可 以 利用 矩阵 4 的 稀 朴 性 大 大 缩短 计算 时 间 。 第 二 步 是 将 
双 对 和 角 和 矩阵 变 成 奇异 值 分 解 的 三 个 矩阵 .这 一 步 计算 量 只 是 第 一 步 的 零头 ， 
可 以 忽略 不 计 。 


在 文本 分 类 中 ，M 对 应 文本 的 数量 ，N 对 应 词典 大 小 。 如 果 比 较 奇 异 值 
分 解 的 计算 复杂 度 和 利用 余弦 定理 计算 文本 相似 度 (一 次 迭代 ) 的 时 间 ， 
它们 处 于 同一 个 数量 级 ,但 是 前 者 不 需要 多 次 迭代 , 因此 计算 时 间 短 不 少 。 
奇异 值 分 解 的 另 一 个 大 问题 是 存储 量 较 大 ， 因 为 整个 矩阵 都 需要 存在 内 
存 里 ， 而 利用 余弦 定理 的 聚 类 则 不 需要 。 


3 小 结 


相 比 上 一 章 介绍 的 利用 文本 特征 向 量 余弦 的 距离 自 底 向 上 的 分 类 方法 ， 
奇异 值 分 解 的 优点 是 能 较 快 地 得 到 结果 ( 在 实际 应 用 中 ) ， 因 为 它 不 需要 
一 次 次 地 和 迭代。 但 是 用 这 种 方法 得 到 的 分 类 结果 略 显 粗糙 ， 因 此， 它 适合 
处 理 超大 规模 文本 的 粗 分 类 。 在 实际 工作 中 ,可 以 先进 行 奇 异 值 分 解 ， 得 
到 粗 分 类 结果 ， 再 利用 计算 向 量 余弦 的 方法 ,在 粗 分 类 结果 的 基础 上 ， 进 
行 几 次 迭代 ， 得 到 比较 精确 的 结果 。 这 样 ， 将 这 两 个 方法 先后 使 用 ， 可 
以 充分 利用 这 两 个 方法 的 优势 ， 既 节省 时 间 ， 又 获得 很 好 的 准确 性 。 
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第 16 章 信息 指纹 及 其 应 用 


1 信息 指纹 


在 前 面 的 章节 中 , 我 们 讲 到 , 一段 文 字 所 包含 的 信息 ,就 是 它 的 信息 粹 。 
如 果 对 这 段 信息 进行 无 损 压 缩编 码 ， 理 论 上 编码 后 的 最 短 长 度 就 是 它 的 
信息 烂 。 当 然 , 实际 编码 长 度 总 是 要 上 略 长 于 它 的 信息 粹 的 比特 数 。 但 是 ， 
如 果 仅 仅 要 区 分 两 段 文 字 或 者 图 片 ， 则 远 不 需要 那么 长 的 编码 。 任 何 一 
段 信息 (包括 文字 、 语 音 、 视 频 、 图 片 等 等 ) ， 都 可 以 对 应 一 个 不 太 长 
的 随机 数 ， 作 为 区 别 它 和 其 他 信息 的 指纹 ( Fingerprint ) 。 只 要 算法 设 
计 得 好 ， 任 何 两 段 信 息 的 指纹 都 很 难 重复 ， 就 如 同人 类 的 指纹 一 样 。 信 
息 指纹 在 加 密 、 信 息 压 缩 和 处 理 中 有 着 广泛 的 应 用 。 


我 们 在 “图 论 和 网 络 息 虫 ”一 章 中 提 到 ,为 了 防止 重复 下 载 同一 个 网 页 ， 
需要 在 哈 希 表 中 记录 已 经 访问 过 的 网 址 (URL ) 。 但 是 在 哈 希 表 中 以 字 
符 串 的 形式 直接 存储 网 址 ， 既 费 内 存 空 间 ， 又 浪费 查找 时 间 。 现 在 的 网 
址 一 般 都 较 长 ， 比 如 ， 如 果 在 Google 、 搜 搜 或 者 百度 上 查找 “吴军 数 
学 之 美 ”， 对 应 的 网 址 长 度 在 100 个 字符 以 上 。 下 面 是 百度 的 链接 : 


http://www.baidu.com/s?ie=gb2312&bs=%CA%FD%D1%A7%D6%AE%C3%CORsr=&a 
mpiz=&cl=3&f=8&wd=%CE%E2%BE%FC+%CA%FD%D1%A7%D6%AE%C3%CO&ct=0 
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到 了 2010 年 ， 互 联网 上 的 网 页 总 数 在 5 000 亿 这 个 量 级 ， 假 定 网 址 的 平 
均 长 度 为 100 个 字符 ,那么 存储 5 000 亿 个 网 址 本 身 至 少 需要 50TB， 即 
5 000 万 兆 字 节 的 容量 。 考 虑 到 哈 希 表 的 存储 效率 一 般 只 有 50% 左右 ， 故 
实际 需要 的 内 存在 100TB 以 上 。 如 果 一 台 服 务 器 内 存 是 50GB ( 2010 年 
的 水 平 ) ， 也 需要 2 000 台 服 务 器 来 存放 这 些 内 容 。 另 外 ， 即 使 有 这 人 么 多 
服务 器 ， 将 这 些 网 址 放 到 了 计算 机 的 内 存 中 ， 由 于 网 址 长 度 不 固定 ， 以 
字符 串 的 形式 查找 ， 效 率 会 很 低 。 


因此 ， 如 果 能 够 找到 一 个 函数 ， 将 这 5 000 亿 个 网 址 随机 地 映射 到 128 位 
二 进 制 ( 即 128 比特 ) ， 也 就 是 16 个 字 节 的 整数 空间 ， 比 如 将 上 面 那 个 
很 长 的 字符 串 对 应 成 一 个 如 下 的 随机 数 : 


893249432984398432980545454543 


这 样 ， 每 个 网 址 就 只 需要 占用 16 个 字 节 而 不 是 原来 的 100 个 。 这 就 能 把 
存储 网 址 的 内 存 需求 量 降 至 原来 的 1/6 不 到 。 这 个 16 个 字 节 的 随机 数 ， 
就 称 做 该 网 址 的 信息 指纹 。 可 以 证 明 ， 只 要 产生 随机 数 的 算法 足够 好 ， 就 
能 保证 几乎 不 可 能 有 两 个 字符 串 的 指纹 相同 ， 就 如 同 不 可 能 有 两 个 人 的 指 
纹 相同 一 样 。 由 于 指纹 是 固定 的 128 位 二 进 制 整数 ， 因 此 ， 查 找 的 计算 量 
与 字符 串 相 比 ， 要 小 得 多 。 网 络 息 虫 在 下 载 网 页 时 ， 它 将 访问 过 的 网 页 地 
址 都 变 成 一 个 个 信息 指纹 ， 存 到 哈 希 表 中 ， 每 当 遇 到 一 个 新 网 址 ， 计 算 机 
就 计算 出 它 的 指纹 ， 然 后 比较 该 指纹 是 否 已 经 在 哈 希 表 中 ， 来 决定 是 否 下 
载 这 个 网 页 。 这 种 整数 的 查找 比 原来 的 字符 串 查 找 快 几 十 倍 。 对 于 要 求 不 
是 很 高 的 网 络 息 虫 ， 甚 至 采用 64 位 二 进 制 就 足够 了 ， 这 样 可 以 进一步 节 
省 存储 空间 和 运算 时 间 。 


上 面 那个 网 址 ( 字符 串 ) 的 信息 指纹 的 计算 方法 一 般 分 为 两 步 。 首 
先 ， 将 这 个 字符 串 看 成 是 一 个 特殊 的 、 长 度 很 长 的 整数 。 这 一 步 非常 容 
易 ， 因 为 所 有 的 字符 在 计算 机 里 都 是 按照 整数 来 存储 的 。 接 下 来 就 需要 
一 个 产生 信息 指纹 的 关键 算法 : 伪 随 机 数 产生 器 算法 ( Pseudo-Random 
Number Generator， 简 称 PRNG ) ， 通 过 它 将 任意 很 长 的 整数 转换 成 特 
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定 长 度 的 伪 随 机 数 。 最 早 的 PRNG 算法 是 由 计算 机 之 父 汉 : 诺 伊 曼 提 
出 来 的 。 他 的 办 法 非常 简单 ， 就 是 将 一 个 数 的 平方 拘 头 去 尾 ， 取 中 间 的 
几 位 数 。 比 如 一 个 四 位 的 二 进 制 数 1001 ( 相当 于 十 进 制 的 9 ) ， 其 平方 
为 01010001 ( 十进制 的 81) ,的 头 去 尾 ， 剩 下 中 间 的 4 位 0100。 当 然 
这 种 方法 产生 的 数字 并 不 很 随机 ， 也 就 是 说 ， 两 个 不 同 信息 很 有 可 能 有 
同一 指纹 ， 比 如 0100 ( 十 进 制 的 4) ， 它 按照 这 个 方法 产生 的 指纹 也 是 
0100。 现 在 常用 的 梅森 旋转 算法 ( Mersenne Twister ) 要 好 得 多 。 


信息 指纹 的 用 途 远 不 止 网 址 的 消 重 ， 它 的 挛 生 兄弟 是 密码 。 信 息 指 纹 的 
一 个 特征 是 其 不 可 逆 性 , 也 就 是 说 , 无 法 根据 信息 指纹 推出 原 有 信息 。 
这 种 性 质 ， 正 是 网 络 加 密 传输 所 需要 的 。 比 如 说 ， 一 个 网 站 可 以 根据 用 
户 本 地 客户 端的 cookie 识别 不 同 用 户 ， 这 个 cookie 就 是 一 种 信息 指纹 。 
但 是 网 站 无 法 根据 信息 指纹 了 解 用 户 的 身份 ， 这 样 就 可 以 保护 用 户 的 隐 
私 。 但 是 cookie 本 身 并 没有 加 密 ， 因 此 通过 分 析 cookie 还 是 能 知道 某 台 
计算 机 访问 了 哪些 网 站 。 为 了 保障 信息 安全 , 一 些 网 站 ( 比如 银行 的 ) 
采用 加 密 的 HTTPS, 用 户 访问 这 些 网 站 留 下 的 cookie 本 身 也 需要 加 密 。 
加 密 的 可 靠 性 ， 取 决 于 是 否 很 难 人 为 地 找到 拥有 同一 指纹 的 信息 ， 比 如 
一 个 黑客 是 否 能 产生 出 某 位 用 户 的 cookie。 从 加 密 的 角度 讲 梅森 旋转 算 
法 还 不 够 好 ， 因 为 它 产生 的 随机 数 还 有 一 定 的 相关 性 ， 破 解 一 个 就 等 于 
破解 了 一 大 批 。 


在 互联 网 上 加 密 要 使 用 基于 加 密 的 伪 随 机 数 产生 器 ( Cryptographically 
Secure Pseudo-Random Number Generator， 简 称 CSPRNG ) 。 常 用 的 
算法 有 MD5 或 者 SHA-1 等 标准 ， 它 们 可 以 将 不 定 长 的 信息 变 成 定 长 的 
128 位 或 者 160 位 二 进 制 随机 数 。 值 得 一 提 的 是 ，SHA-1 以 前 被 认为 是 
没有 漏洞 的 ， 现 在 已 经 被 中 国 的 王小云 教授 证 明 存 在 漏洞 。 但 是 大 家 不 
必 恶 慌 ， 因 为 这 和 黑客 能 真正 攻破 你 的 注册 信息 还 是 两 回 事 。 
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1 
0(N) 的 时 间 复杂 度 
是 不 可 能 突破 的 ， 
因为 毕竟 要 扫描 一 
遍 所 及 个 元 素 。 


2 “信息 指纹 的 用 途 


信息 指纹 的 历史 虽然 很 悠久 ， 但 真正 的 广泛 应 用 是 在 有 了 互联 网 以 后 ， 
近 十 年 才 渐渐 热门 起 来 。 


上 面 一 节 讲 述 了 在 网 络 息 虫 中 利用 信息 指纹 可 以 快速 而 经 济 ( 节省 服务 
器 ) 地 判断 一 个 网 页 是 否 已 下 载 过 。 信 息 指 纹 在 互联 网 和 自然 语言 处 理 
中 还 有 非常 多 的 应 用 ， 这 里 不 可 能 ( 也 不 必要 ) 一 一 列举 ， 只 是 找 几 个 
有 代表 性 的 例子 。 


2.1 判定 集合 相同 


在 网 页 搜索 中 ， 有 时 需要 判断 两 个 查询 用 词 是 否 完全 相同 ( 但 是 次 序 可 
能 不 同 ) ,比如 “北京 ”中关村 ”星巴克 ”和 “星巴克 北京 ”中关村 ” 
用 词 完全 相同 。 更 普遍 的 讲法 是 判断 两 个 集合 是 否 相同 〈 比如 一 个 人 是 
否 用 两 个 不 同 的 Email 帐号 对 同一 群 人 群发 垃圾 邮件 ) 。 解 决 这 个 问题 
有 各 种 各 样 的 方法 ， 没 有 绝对 正确 的 和 错误 的 ， 但 是 有 好 的 方法 和 笨 的 
方法 。 


最 直接 的 笨 办 法 是 对 这 个 集合 中 的 元 素 一 一 做 比较 ， 这 个 方法 计算 的 时 
间 复 杂 度 是 0(N?) ,其 中 NN 是 集合 的 大 小 。 如 果 谁 面试 时 这 么 回答 我 ， 
我 肯定 不 会 让 他 通过 。 


稍微 好 一 点 的 办 法 是 将 两 个 集合 的 元 素 分 别 排序 ， 然 后 顺序 比较 ， 这 样 
计算 时 间 的 复杂 度 是 0(NlogN) ， 比 前 面 那 种 方法 好 了 不 少 ,但 还 不 是 很 
好 。 与 这 个 方法 处 于 同一 个 水 平 的 是 将 第 一 个 集合 放 在 一 张 哈 希 表 中 , 然 
后 把 第 二 个 集合 的 元 素 一 一 和 哈 希 表 中 的 元 素 作对 比 。 这 个 方法 的 时 间 
复杂 度 为 0(N) ， 达 到 了 最 佳 '。 但 是 额外 使 用 了 O(N) 的 空间 , 而 县 代码 
很 复杂 ， 不 完美 。 


完美 的 方法 是 计算 这 两 个 集合 的 指纹 ， 然 后 直接 进行 比较 。 我 们 定义 一 
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个 集合 S = {e1,e2,…,en} 的 指纹 FEP(S)=FP(ei) + FP(ez)+… +FP ， 其 中 
FP(e)，FP(ez)，…，FP(en) 分 别 为 5 中 这 些 元 素 对 应 的 指纹 。 由 于 加 法 
的 交换 率 ， 保 证 集合 的 指纹 不 因 元 素 出 现 的 次 序 而 改变 ， 如 果 两 个 集合 
元 素 相同 ， 那 么 它们 的 指纹 一 定 相同 。 当 然 ， 不 同 元 素 的 指纹 也 相同 的 
概率 非常 非常 小 ， 在 工程 上 完全 可 以 忽略 。 我 们 在 延伸 阅读 里 会 告诉 读 
者 这 个 概率 有 多 小 。 


利用 信息 指纹 的 方法 计算 的 复杂 度 是 0(N) ， 而 且 不 需要 额外 的 空间 ， 因 
此 是 最 佳 方法 。 


类 似 的 应 用 还 有 很 多 ， 如 比较 网 上 的 一 首 歌 是 否 是 盗版 别人 的 ， 只 要 算 
一 算 这 两 个 音频 文件 的 信息 指纹 即 可 。 


2.2 ”判定 集合 基本 相同 


爱 思考 的 读者 可 能 会 挑战 我 : 发 垃圾 邮件 的 人 哪 有 这 人 么 傻 ， 从 两 个 帐号 
发 出 的 垃圾 邮件 收 信人 都 相同 ? 如 果 稍 微 变 上 一 两 个 ， 上 面 的 方法 不 就 
不 起 作用 了 吗 ? 解决 这 个 问题 需要 我 们 能 够 快速 判断 两 个 集合 是 否 基 本 
相同 ， 其 实 只 要 将 上 面 的 方法 稍 作 改 动 即 可 。 


可 以 分 别 从 两 个 帐号 群发 的 接收 电子 邮件 地 址 清单 ( Email Address List ) 
中 按照 同样 的 规则 随机 挑选 几 个 电子 邮件 的 地 址 ， 比 如 尾数 为 24 的 。 如 
果 它 们 的 指纹 相同 , 那么 很 有 可 能 这 两 个 接收 的 电子 邮件 单子 基本 相同 。 
由 于 挑选 的 数量 有 限 ， 通 常 是 个 位 数 ， 因 此 也 很 容易 判断 是 否 是 80%, 或 
者 90% 重复 。 


上 述 判 断 集合 基本 相同 的 算法 有 很 多 实际 的 应 用 ， 比 如 在 网 页 搜索 中 , 判 
断 两 个 网 页 是 否 是 重复 的 。 如 果 把 两 个 网 页 ( 的 正文 ) 从 头 比 到 尾 ， 计 
算 时 间 太 长 ， 也 没有 必要 。 我 们 只 需 对 每 个 网 页 挑 出 几 个 词 ， 这 些 词 构 
成 网 页 的 特征 词 集合 。 然 后 计算 和 比较 这 些 特征 集合 的 信息 指纹 即 可 。 在 
两 个 被 比较 的 网 页 中 ， 常 见 的 词 一 般 都 会 出 现 ， 不 能 作为 这 两 篇 文章 的 
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特征 。 只 出 现 一 次 的 词 ,很 可 能 是 噪音 , 也 不 能 考虑 。 在 剩 下 的 词 中 ， 
我 们 知道 IDF 大 的 词 鉴别 能 力 强 ， 因 此 只 需 找 出 每 个 网 页 中 IDF 最 大 的 
几 个 词 ， 并 且 算出 它们 的 信息 指纹 即 可 。 如 果 两 个 网 页 这 么 计算 出 来 的 
信息 指纹 相同 , 它们 基本 上 是 相同 的 网 页 。 为 了 允许 有 一 定 的 容错 能 力 ， 
在 Google 里 采用 了 一 种 特定 的 信息 指纹 一 相似 哈 希 ( Simhash ) 。 相 
似 哈 希 的 原理 会 在 延伸 阅读 中 介绍 。 


上 面 的 算法 稍 作 改进 还 可 以 判断 一 篇 文章 是 否 抄袭 另 一 篇 文章 。 具 体 的 
做 法 是 ， 将 每 一 篇 文章 切 成 小 的 片段 ， 然 后 对 这 些 片 段 用 上 述 方法 选择 
特征 词 的 集合 ， 并 且 计 算 它们 的 指纹 。 只 要 比较 这 些 指纹 ， 就 能 找 出 大 
段 相同 的 文字 ， 最 后 根据 时 间 先 后 ， 找 到 原创 的 和 抄袭 的 。Google 实验 
室 利用 这 个 原理 做 了 一 个 名 为 CopyCat 的 项 目 ， 能 够 很 准确 地 找 出 原文 
和 转载 ( 拷贝 ) 的 文章 。 


2.3 ”YouTube 的 反 盗 版 


Google 旗下 的 YouTube 是 全 球 最 大 的 视频 网 站 , 和 国内 的 视频 网 站 不 同 ， 
YouTube 自身 不 提供 和 上 传 任何 内 容 ， 完 全 由 用 户 自己 提供 。 这 里 的 用 
户 既 包括 专业 的 媒体 公司 ， 比 如 NBC 和 迪士尼 ， 也 包括 个 人 用 户 。 由 于 
对 后 者 没有 太 多 上 传 视频 的 限制 , 一些 人 会 上 传 专业 媒体 公司 的 内 容 。 这 
件 事 不 解决 就 会 动摇 YouTube 的 生存 基础 。 


从 上 百 万 视频 中 找 出 一 个 视频 是 否 是 另 一 个 视频 的 盗版 ， 并 不 是 一 件 容 
易 的 事情 。 一 段 几 分 钟 的 视频 ， 文 件 大 小 有 几 兆 到 几 十 兆 ， 而 且 还 是 压 
缩 的 ， 如 果 恢 复 到 每 秒 30 帧 的 图 像 ， 数据 量 就 会 大 得 不 得 了 。 因 此 ， 没 
有 人 通过 直接 比较 两 段 视频 的 方法 来 确定 它们 是 否 相似 。 


视频 的 匹配 有 两 个 核心 技术 , 关键 帧 的 提取 和 特征 的 提取 。MPEG 视 频 ( 在 
NTSC 制 的 显示 器 上 播放 ) 虽然 每 秒 钟 有 30 帧 图 像 ， 但 是 每 一 帧 之 间 的 
差异 不 大 -( 否则 我 们 看 起 来 就 不 连贯 了 。) 只 有 极 少数 的 帧 是 完整 的 图 像 
这 些 称 为 关键 帧 。 其 余 幢 存储 的 只 是 和 关键 帧 相 比 的 差异 值 。 关 键 帧 对 
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于 视频 的 重要 性 ， 就 如 同 主题 词 对 于 新 闻 的 重要 性 一 样 。 因 此 ， 处 理 视 
频 图 像 首 先是 找到 关键 帧 ， 接 下 来 就 是 要 用 一 组 信息 指纹 来 表示 这 些 关 
键 帧 了 。 


有 了 这 些 信息 指纹 后 ， 接 下 来 查 盗 版 的 事情 就 类 似 于 比较 两 个 集合 元 素 
是 否 相同 了 。Google 收购 YouTube 后 ， 由 Google 研究 院 研 究 图 像 处 理 
的 科学 家 们 开发 出 的 反 盗版 系统 ， 效 果 非 常 好 。 由 于 可 以 找 出 相同 的 视 
频 的 原创 和 拷贝 ，Google 制定 了 一 个 很 有 意思 的 广告 分 成 策略 : 虽然 所 
有 的 视频 都 可 以 插 和 人 广告 ， 但 是 广告 的 收益 全 部 提供 给 原创 的 视频 ， 即 
使 广告 是 插 人 在 拷贝 的 视频 中 。 这 样 一 来 ， 所 有 拷贝 和 上 传 别人 的 视频 
的 网 站 就 不 可 能 获得 收入 。 没 有 了 经 济 利益 , 也 就 少 了 很 多 盗版 和 拷贝 。 


3 ”延伸 阅读 : 信息 指纹 的 重复 性 和 相似 哈 希 


读者 背景 知识 : 概率 论 、 组 合 数学 。 


3.1 信息 指纹 重复 的 可 能 性 


信息 指纹 是 通过 伪 随 机 数 产生 的 。 既 然 是 伪 随机 数 ， 两 个 不 同 的 信息 就 
有 可 能 产生 同样 的 指纹 。 这 种 可 能 性 从 理论 上 讲 确实 存在 , 但 是 非常 小 。 
至 于 有 多 小 ， 我 们 就 在 这 一 节 中 分 析 。 


假定 一 个 伪 随机 数 产生 的 范围 是 0~N 1， 共 N 个 。 如 果 是 128 位 的 二 
进 制 ，N = 2129 ， 这 是 一 个 非常 巨大 的 数字 。 如 果 随意 挑选 两 个 指纹 ， 那 
么 它们 重复 的 可 能 性 就 是 1/N ， 不 重复 的 可 能 性 是 全 二 +- ， 因 为 第 一 个 可 
以 是 任 一 个 ,第 二 个 只 有 N -1 的 可 选 余地 。 如 果 随意 挑选 三 个 指纹 ， 要 


保证 不 重复 ,第 三 个 只 有 N -2 的 可 选 余地 ， 因 此 ， 三 个 不 重复 的 概率 为 
由 一 台 以 此 类 推 ,k 个 指纹 不 重复 的 概率 
_ WDW-2) .Nk+D) 


Pe NK*-1 o 
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Pe 随 着 k 增 加 而 减 小 , 即 产生 的 指纹 多 到 一 定 程度 , 就 可 能 有 重复 的 了 。 
如 果 Pk < 05 ， 那 么 , K 个 指纹 重复 一 次 的 数学 期 望 超过 1。 现 在 来 估计 
一 下 这 时 候 k 的 最 大 值 。 

上 述 不 等 式 等 价 于 


(N— DN -2)..(N—k) 
Pn=—— < 05 (161) 


当 N =， 


-地 3») (16.2) 
6. 


-en 人 2N 


这 个 概率 需要 小 于 0.5， 因 此 


k(k + 1) 
Pri 二 ep(- CC )] <os (16.3) 


这 等 效 于 


kz +k+2NIn0.5 > 0.5 (16.4) 


2 

Moses charikar， ”由 于 k > 0, 上述 不 等 式 有 唯一 解 

Similarity Es- 

timation Tech —1+V1i+8Nlog2 

-niques from Ro- k> 2 (16.5) 


unding Algo- 


rithms,Proceedings 。 也 就 是 说 ， 对 于 一 个 很 大 的 N，k 是 一 个 很 大 的 数字 。 如 果 用 MD5 指纹 
of the 34th An (虽然 它 有 缺陷 )， 它 有 128 位 二 进 制 ，k > 264 = 1.8 x 1019。 也 就 是 说 ， 每 


nual ACM Symposi- 


um on Theory of ”一 千 八 百 亿 亿 次 才能 重复 一 次 ， 因 此 ， 不 同 信息 产生 相同 指纹 的 可 能 性 
mne ?99 几乎 为 零 。 即 使 采用 64 位 的 指纹 ， 重 复 的 可 能 性 依然 很 低 。 


3 

Gurmeet singh ”3.2 ”相似 哈 希 ( Simhash ) 
Manku, Arvind 

Jain and Anish Das 


sarma Detecting “相似 哈 希 是 一 种 特殊 的 信息 指纹 ， 是 Moses Charikar 在 2002 年 提出 来 
NearDuplicates ”的 2 但 是 真正 得 到 重视 是 当 Google 在 网 页 息 虫 中 使 用 它 ， 并 且 把 结果 发 


for Web Crawling, 


www2007.2007” ” 表 在 WWW 会 议 上 以 后 *。 虽 然 Charikar 的 论文 写 得 比较 降 涩 ， 但 是 相 
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似 哈 希 的 原理 其 实 并 不 复杂 。 不 妨 用 一 个 Google 在 下 载 网 页 时 排查 重复 
网 页 的 例子 来 说 明 。 


假定 一 个 网 页 中 有 若干 的 词 &,t2,…,tx， 它 们 的 权重 ( 比如 TEF-IDF 值 ) 分 
布 为 wuvwz…,wk。 先 计算 出 这 些 词 的 信息 指纹 ， 为 便于 说 明 ， 假 定 只 用 
8 位 二 进 制 的 信息 指纹 。 当 然 在 实际 工作 中 不 能 用 这 么 短 的 ， 因 为 重复 度 
太 高 。 计 算 相 似 哈 希 分 为 两 步 。 


第 一 步 我 称 之 为 扩展 ， 就 是 将 8 位 二 进 制 的 指纹 扩展 成 8 个 实数 ， 用 
7,m2 7 表示 ， 这 些 实数 的 值 如 下 确定 : 


首先 ， 将 它们 的 初 值 设置 为 0， 然后， 看 握 的 指纹 (8 位 ) ， 如 果 扎 的 第 
i 位 为 1， 在 mn 上 加 上 w,; 如 果 为 0， 在 nn 上 减 去 wi。 例 如 ,ti 的 指纹 为 
10100110 ( 随便 给 的 ) ， 这 样 处 理 完 t 后 ,ni 到 76 的 值 如 下 : 


表 16.1 处 理 了 第 一 个 词 后 , 71 到 7s 的 值 


n=1 Wi 
m=0 Wi 
n=1 Wi 
n=0 一 wa 
r=0 一 wa 
r=1 wa 
n=l ba 
m=0 一 wi 


接 下 来 处 理 第 二 个 词 t ， 加 入 它 的 指纹 是 00011001， 那 么 根据 上 面 着 1 
相 加 、 连 0 相 减 的 原则 ， 因 为 第 1 位 是 0， 因 此 羡 上 应 该 减 去 妃 的 权重 
wz ,这样 = wi 一 wz ， 如 此 72,…,78 做 同样 处 理 ， 结 果 如 表 16.2。 


表 16.2 处 理 了 第 一 、 二 个 词 后 , 7i 到 76 的 值 


n Wi 一 wz 


好 一 wa 一 wz 
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续 表 
nn Wi — wa 
™ —wWi — wz 
Ts 一 wa 一 wz 
Te Wi 一 wzi 
m Wi 一 wz 
ne 一 wi 十 W 


当 扫描 完全 部 词 时 ， 就 得 到 了 最 后 的 8 个 数 7,…,re ,第 一 步 扩 展 过 程 到 
此 结束 。 假 定 ni,72,…,78 的 值 在 扩展 后 变 为 如 表 16.3 所 示 的 那样 : 


表 16.3 ”处 理 完 所 有 的 词 后 ,71 到 Ts 的 值 ， 然 后 把 正 数 变 成 1， 负 数 变 成 0 


n -052 
nn -12 
n 033 
nh 021 
Ts -091 
Ts -11 
my -085 
Te 052 


-ooo--opo 


第 二 步 我 称 之 为 收缩 ， 就 是 把 8 个 实数 变 回 成 一 个 8 位 的 二 进 制 。 这 个 
过 程 非常 简单 ， 如 果 7i > 0， 就 把 相应 的 二 进 制 的 第 i 位 设置 成 1， 否则 
设置 成 0。 这 样 就 得 到 了 这 篇 文章 的 8 位 相似 哈 希 指纹 。 对 于 上 面 的 例子 ， 
这 篇 文章 的 Simhash = 00110001。 


相似 哈 希 的 特点 是 ， 如 果 两 个 网 页 的 相似 哈 希 相差 越 小 ， 这 两 个 网 页 的 
相似 性 越 高 。 如 果 两 个 网 页 相同 ， 它 们 的 相似 哈 希 肯定 相同 。 如 果 它 们 
只 有 少数 权重 小 的 词 不 同 ， 其 余 的 都 相同 ， 几 乎 可 以 肯定 它们 的 相似 哈 
希 也 会 相同 。 值 得 一 提 的 是 ， 如 果 两 个 网 页 的 相似 哈 希 不 同 ， 但 是 相差 
很 小 ， 则 对 应 的 网 页 也 非常 相似 。 用 64 位 的 相似 哈 希 做 对 比 时 ， 如 果 只 
相差 一 两 位 ， 那 么 对 应 网 页 内 容重 复 的 可 能 性 大 于 80%。 这 样 通过 记录 
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每 个 网 页 的 相似 哈 希 , 然后 判断 一 个 新 网 页 的 相似 哈 希 是 否 已 经 出 现 过 ， 
可 以 找到 内 容重 复 的 网 页 ， 就 不 必 重 复 建 索引 浪费 计算 机 资源 了 。 


信息 指纹 的 原理 简单 ， 使 用 方便 ， 因 此 用 途 非常 广泛 ， 是 当今 海量 数据 
处 理 必 不 可 少 的 工具 。 


4 小 结 


信息 指纹 可 以 理解 成 将 一 段 信息 ( 文字、 图 片 、 音 频 、 视 频 等 ) 随机 地 
映射 到 一 个 多 维 二 进 制 空 间 中 的 一 个 点 (一 个 二 进 制 数字 ) 。 只 要 这 个 
随机 函数 做 得 好 ， 那 么 不 同 信息 对 应 的 这 些 点 不 会 重合 ， 因 此 这 些 二 进 
制 的 数字 就 成 了 原来 信息 所 具有 的 独一无二 的 指纹 。 


参考 文献 : 

1 Moses Charikar, Similarity Estimation Techniques from Rounding Algorithms, 
Proceedings of the 34th Annual ACM Symposium on Theory of Computing, 2002. 

2. Gurmeet Singh Manku, Arvind Jain and Anish Das Sarma, Detecting Near-Duplicates 
for Web Crawling, WWW2007, 2007. 
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第 17 章 由 电视 剧 《 瞳 算 》 所 想到 的 
-一 谈 谈 密 码 学 的 数学 原理 


2007 年 ， 我 看 了 电视 剧 《暗算 》， 很 喜欢 它 的 构思 和 里 面 的 表演 。 其 中 
有 一 个 故事 提 到 了 密码 学 ， 故 事 本 身 不 错 ， 但 是 有 点 故弄玄虚 。 不 过 有 
一 点 是 对 的 ,就 是 当今 的 密码 学 是 以 数学 为 基础 的 。 ( 没有 看 过 《暗算 》 
的 读者 可 以 看 一 下 网 上 的 介绍 ， 因 为 后 面 会 多 次 提 到 这 部 电视 剧 。 ) 


1 密码 学 的 自发 时 代 


密码 学 的 历史 大 致 可 以 追溯 到 两 千年 前 ， 相 传 古 罗马 名 将 恺 撤 (Julius 
Caesar ) 为 了 防止 敌 方 截获 情报 ,用 密码 传送 情报 。 恺 撤 的 做 法 很 简单 ， 
就 是 对 二 十 几 个 罗马 字母 建立 一 张 对 应 表 ， 如 表 17.1 所 示 。 


表 17.1 恺 撤 大 帝 的 明码 密码 对 应 表 
明码 密码 


i:monNnwm> 
mT > mm 


nn 
~ 
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这 样 ， 如 果 不 知道 密码 本 ， 即 使 截获 一 段 信息 也 看 不 懂 ， 比 如 收 到 一 个 
的 消息 是 ABKTBP， 那 么 在 敌人 看 来 是 毫 无 意义 的 字 ， 通 过 密码 本 破解 
出 来 就 是 CAESAR 一 词 ， 即 恺 撤 的 名 字 。 这 种 编码 方法 史 称 恺 撤 大 帝 ， 
现在 市 场 上 还 有 这 一 类 的 玩具 卖 ， 见 图 17.1。 


图 17.1 市 场 上 卖 的 名 为 “ 恺 撤 大 帝 ”的 玩具 


当然 ， 学 过 信息 论 的 人 都 知道 ， 只 要 多 截获 一 些 情报 ( 即使 是 加 密 的 ) ， 
统计 一 下 字母 的 频率 ， 就 可 以 破解 出 这 种 密码 。 柯 南 * 道 尔 ( Sir Arthur 
Ignatius Conan Doyle ) 在 他 的 《福尔摩斯 探 案 集 》 中 “跳舞 的 小 人 ”的 
故事 里 已 经 介绍 了 这 种 小 技巧 ( 见 图 17.2 ) 。 近 年 来 在 很 多 谍报 题材 的 
电视 剧 中 ,编剧 还 在 经 常 使 用 这 种 整 脚 的 密码 ， 比 如 用 菜 价 ( 一 组 数字 ) 
传递 信息 ， 这 些 数字 对 应 康 早 字典 的 页 码 和 字 的 次 序 。 对 于 学 过 信息 论 
的 人 来 说 ， 破 译 这 种 密码 根本 不 需要 密码 本 ， 只 要 多 收集 几 次 情报 就 可 
以 破译 出 来 。 


久光 社 义 关 炎炎 信义 兴 务 类 火光 芭 


图 17.2 ”跳舞 的 小 人 : 看 上 去 很 神秘 ， 但 是 很 容易 被 破解 


从 恺 撤 大 帝 到 20 世纪 初 很 长 的 时 间 里 ， 密 码 的 设计 者 们 在 非常 缓慢 地 改 
进 技术 ， 因 为 他 们 的 工作 基本 上 靠 经 验 ， 没 有 自觉 地 应 用 数学 原理 ( 当 
然 当 时 还 没有 信息 论 ) 。 人 们 渐渐 意识 到 一 个 好 的 编码 方法 会 使 得 解密 
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者 无 法 从 密码 中 统计 出 明码 的 统计 信息 。 有 经 验 的 编码 者 会 把 常用 的 词 
对 应 成 多 个 密码 ， 使 得 破译 者 很 难 统计 出 任何 规律 。 比 如 ， 如 果 将 汉语 
中 的 “是 ”一 词 对 应 于 唯一 一 个 编码 0543， 那 么 破译 者 就 会 发 现 0543 出 
现 的 特别 多 。 但 如 果 将 它 对 应 成 0543 、373 、2947 等 等 10 个 密码 ,每 次 
随机 地 选用 一 个 ， 每 个 密码 出 现 的 次 数 就 不 会 太 多 ， 而 且 破 译 者 也 无 从 
知道 这 些 密码 其 实 对 应 一 个 字 。 这 里 面 已 经 包含 着 朴素 的 概率 论 的 原理 。 


图 17.3 ”加密 和 解密 是 一 对 函数 和 反 函 数 


好 的 密码 必须 做 到 不 能 根据 已 知 的 明文 和 密 文 的 对 应 推断 出 新 的 密 文 的 
内 容 。 从 数学 的 角度 上 讲 ， 加 密 的 过 程 可 以 看 作 是 一 个 函数 的 运算 F， 
解密 的 过 程 是 反 函数 的 运算 。 明 码 是 自 变量 ,密码 是 函数 值 。 好 的 (加密 ) 
函数 不 应 该 通过 几 个 自 变量 和 函数 值 就 能 推出 函数 。 这 一 点 在 第 二 次 世 
界 大 战 前 做 得 很 不 好 。 历 史上 有 很 多 在 这 方面 设计 得 不 周到 的 密码 的 例 
子 。 比 如 在 第 二 次 世界 大 战 中 ， 日 本 军 方 的 密码 设计 就 很 成 问题 。 美 
军 破 获 了 日 本 很 多 密码 。 在 中 途 岛 海 战 前 ， 美 军 截获 的 日 军 密 电 经 常 出 
现 AF 这 样 一 个 地 名 ， 应 该 是 太平 洋 的 某 个 岛屿 ， 但 是 美军 无 从 知道 是 哪 
个 。 于 是 , 美军 就 逐个 发 布 自 己 控制 的 岛屿 有 关 的 假 新 闻 。 当 美军 发 出 “中 
途 岛 供水 系统 坏 了 ”这 条 假 新 闻 后 ， 从 截获 的 日 军情 报 中 又 看 到 含有 AF 
的 电文 (日 军情 报 内 容 是 AF 供水 出 了 问题 ) ， 美 军 就 断定 中 途 岛 就 是 
AE。 事 实证 明 判断 正确 ， 美 军 在 那里 成 功 地 伏击 了 日 本 联合 舰队 。 


已 故 的 美国 情报 专家 雅 德 利 ( Herbert Osborne Yardley，1889-1958 ) 二 
战 时 曾经 在 重庆 帮助 中 国政 府 破解 日 本 的 密码 。 他 在 重庆 的 两 年 里 做 得 
最 成 功 的 一 件 事 ， 就 是 破解 了 日 军 和 重庆 间谍 的 通信 密码， 并 因此 破译 
了 几 千 份 日 军 和 间谍 之 间 通 信 的 电文 , 从 而 破获 了 国民 党 内 奸 “ 独 臂 海盗 ” 
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1 

美国 破译 了 日 本 的 
密码 ， 掌握 了 山本 
五 十 六 飞机 的 行踪 ， 
然后 派 战 斗 机 击落 
了 他 的 座机 。 


为 日 军 提供 重庆 气象 信息 的 间谍 案 。 雅 德 利 ( 及 一 位 中 国 女子 徐 贞 ) 的 
工作 ， 大 大 减轻 了 日 军 对 重庆 户 炸 造成 的 伤害 。 雅 德 利 回 到 美国 后 写 了 
本 书 《 中 国 黑 室 》 ( The Chinese Black Chamber ) 介绍 这 段 经 历 ， 但 是 
该 书 直到 1983 年 才 被 获准 解密 并 出 版 。 从 书 中 的 内 容 可 以 了 解 到 ， 当 时 
日 本 在 密码 设计 上 有 严重 的 缺陷 。 日 军 和 重庆 间谍 约定 的 密码 本 就 是 美 
国 著名 作家 赛 珍珠 ( Pearl S. Buck ) 获得 1938 年 诺 贝 尔 文学 奖 的 《大 地 》 
( The Good Earth ) 一 书 。 这 本 书 很 容易 找到 ， 解 密 时 只 要 接 密码 电报 
的 人 拿 着 这 本 书 就 能 解 开 密码 。 密 码 所 在 的 页 数 就 是 一 个 非常 简单 的 公 
式 : 发 报 日 期 的 月 数 加 上 天 数 ， 再 加 上 10。 比 如 3 月 1 日 发 报 ， 密 码 就 
在 3+ 11+10= 24 页 。 这 样 的 密码 设计 违背 了 我 们 前 面 介绍 的 “加 密 函 
数 不 应 该 通过 几 个 自 变 量 和 函数 值 就 能 推出 函数 本 身 ” 这 个 原则 ， 这 样 
的 密码 ， 破 译 一 篇 密 文 就 可 能 破译 以 后 全 部 的 密 文 。 


该 书 中 还 提 到 日 军 对 保密 的 技术 原理 所 知 甚 少 。 有 一 次 日 本 的 马尼拉 使 
馆 向 外 发 报时 ， 发 到 一 半 机 器 卡 死 ， 然 后 居然 就 照 单 重 发 一 遍 了 事 ， 这 
种 同文 密 电 在 密码 学 上 是 大 忌 ( 和 我 们 现在 VPN 登录 用 的 安全 密 钥 一 样 ， 
密码 机 加 密 时 ， 每 次 应 该 自动 转 一 轮 ， 以 防 同 一 密 钥 重复 使 用 ， 因 此 即 
使 是 同一 电文 ， 两 次 发 送 的 密 文 也 应 该 是 不 一 样 的 ) 。 另 外 ,日 本 外 交 
部 在 更 换 新 一 代 密 码 机 时 ， 有 些 距 离 远 的 国家 的 使 馆 因为 新 机 器 到 位 较 
晚 ， 他 们 居然 还 使 用 老 机 器 发 送 。 这 样 就 出 现 新 老 机 器 混用 的 情况 ， 同 
样 的 内 容 美国 会 收 到 新 老 两 套 密 文 , 由 于 日 本 旧 的 密码 很 多 已 被 破解 ， 这 
样 会 导致 新 的 密码 一 出 台 就 毫 无 机 密 可 言 。 总 的 来 讲 ， 日 本 在 第 二 次 世 
界 大 战 中 情报 经 常 被 美国 人 破译 ， 他 们 的 海军 名 将 山本 五 十 六 ( 他 爸爸 
56 岁 时 生 的 他 ,所 以 起 名 五 十 六 ) 也 因此 丧命 `。 我 们 常 讲 落后 是 要 挨打 的 ， 
其 实 不 会 使 用 数学 也 是 要 挨打 的 。 


2 信息论 时 代 的 密码 学 


在 第 二 次 世界 大 战 中 ， 很 多 顶尖 的 科学 家 包括 提出 信息 论 的 香农 都 在 为 
美军 情报 部 门 工作 ， 而 信息 论 实际 上 就 是 情报 学 的 直接 产物 。 香 农 提出 
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信息 论 后 ， 为 密码 学 的 发 展 带 来 了 新 气象 。 根 据 信息 论 ， 密 码 的 最 高 境 
界 是 敌人 在 截获 密码 后 ， 对 我 方 的 所 知 没有 任何 增加 ， 用 信息 论 的 专业 
术语 讲 ， 就 是 信息 量 没有 增加 。 一 般 来 讲 ， 当 密码 之 间 分 布 均匀 并 且 统 
计 独 立时 ， 提 供 的 信息 最 少 。 均 匀 分 布 使 得 敌人 无 从 统计 ， 而 统计 独立 
能 保证 敌人 即使 看 到 一 段 密码 和 明码 后 ,不 能 破译 另 一 段 密码 。 这 也 是 《 暗 
算 》 里 传统 的 破译 员 老 陈 破译 了 一 份 密 报 ， 但 无 法 推广 的 原因 ， 而 数学 
家 黄 依依 预见 到 了 这 个 结果 ， 因 为 她 知道 敌人 新 的 密码 系统 编 出 的 密 文 
是 统计 独立 的 。 


有 了 信息 论 后 , 密码 的 设计 就 有 了 理论 基础 , 现在 通用 的 公开 密 钥 的 方法 ， 
《暗算 》 里 的 “光复 一 号 ”密码 ， 应 该 就 是 基于 这 个 理论 。 


公开 密 钥 的 原理 其 实 很 简单 ， 我 们 以 给 上 面 的 单词 Caesar 加 
解密 来 说 明 它 的 原理 。 先 把 它 变 成 一 组 数 ， 比 如 它 的 ASCII 码 
X= 067097101115097114 ( 每 三 位 代表 一 个 字母 ) 做 明码 。 现 在 来 设计 
一 个 密码 系统 ， 对 这 个 明码 加 密 。 


1， 找 两 个 很 大 的 素数 ( 质数 ) P 和 Q@ , 越 大 越 好 ， 比 如 100 位 长 的 ， 
然后 计算 它们 的 乘积 


N=PxQ 4 
M=(pP-Dx(Q-1D (17.2) 
2， 找 一 个 和 M 互 素 的 整数 E, 也 就 是 说 M 和 EE 除了 1 以 外 没有 公约 数 。 


3.， 找 一 个 整数 D, 使 得 Ex D 除 以 M 余 1, 即 ExDmodM = 1。 


现在 , 世界 上 先进 的 、 最 常用 的 密码 系统 就 设计 好 了 ,其 中 E 是 公 钥 ， 
谁 都 可 以 用 来 加 密 ， 了 是 私 钥 用 于 解密 ， 一 定 要 自己 保存 好 。 乘 积 N 是 公 
开 的 ， 即 使 敌人 知道 了 也 没关系 。 


现在 ， 用 下 面 的 公式 对 X 加 密 ， 得 到 密码 Y。 
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XEmod N=Y 《73 


好 了 ， 现 在 没有 密 钥 D， 神 仙 也 无 法 从 Y 中 恢复 XxX。 如 果 知道 D， 根 据 费 


2 尔 马 小 定理 *， 则 只 要 按 下 面 的 公式 就 可 以 轻而易举 地 从 y 中 得 到 X。 
费 尔 马 小 定理 有 两 


种 等 价 的 描述 。 
描述 一 : P 是 一 个 YrmodN=X (17.4) 
质数 ， 对 于 任 

何 整数 w， 如 果  、 ， 

wp 互 来 ， 那么 ”这 个 过 程 大 致 可 以 概况 如 下 : 
NA = 1(mod P)。 

描述 二 : P 是 一 个 质 明文 明文 


密 文 明文 明文 
数 ， 对 于 任何 整数 。 “Cae5ar 06 3718 06 Caesar 
Nr = N(mod P) 简单 的 到 除 | 简单 的 乘除 | 
-| 到 化 | 一 > | 其 要 | | 罗江 | 一 is 化 | 
公开 密 钥 保密 私 钥 
13874. N 37124. 
人 
N-pxQ 


图 17.4 ”公开 密 钥 示意 图 
公开 密 钥 的 好 处 有 : 


1， 简 单 ， 就 是 一 些 乘 除 而 已 。 


2， 可 靠 。 公 开 密 钥 方法 保证 产生 的 密 文 是 统计 独立 而 分 布 均匀 的 。 
也 就 是 说 ， 不 论 给 出 多 少 份 明文 和 对 应 的 密 文 ， 也 无 法 根据 已 知 的 
明文 和 密 文 的 对 应 来 破译 下 一 份 密 文 。 更 重要 的 是 N ,E 可 以 公开 给 
任何 人 加 密 用 ,但 是 只 有 和 掌握 密 钥 D 的 人 才 可 以 解密 , 即使 加 密 者 自 
己 也 是 无 法 解密 的 。 这 样 ， 即 使 加 密 者 被 抓 住 叛变 了 ， 整 套 密 码 系 
统 仍然 是 安全 的 。 ( 而 恺 撤 大 帝 的 加 密 方 法 ， 只 要 有 一 个 知道 密码 
本 的 人 泄密 ， 整 个 密码 系统 就 公开 了 。 ) 


3 灵活， 可 以 产生 很 多 的 公开 密 钥 E 和 私 钥 D 的 组 合 给 不 同 的 加 
密 者 。 
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最 后 让 我 们 看 看 破解 这 种 密码 的 难度 。 首 先 ， 要 声明 ,世界 上 没有 永远 破 
不 了 的 密码 ， 关 键 是 它 能 有 多 长 时 间 的 有 效 期 。 要 破解 公开 密 钥 的 加 密 
方式 ， 至今 的 研究 结果 表明 最 好 的 办 法 还 是 对 大 数 N 进行 因数 分 解 ， 即 
通过 N 反 过 来 找到 P 和 Q， 这 样 密码 就 被 破解 了 。 而 找 P 和 Q 目 前 只 有 用 
计算 机 把 所 有 的 数字 试 一 遍 这 种 笨 办 法 。 这 实际 上 是 在 拼 计 算 机 的 速度 ， 
这 也 就 是 为 什么 P 和 Q 都 需要 非常 大 。 一 种 加 密 方法 只 要 保证 50 年 内 计 
算 机 破 不 了 也 就 可 以 满意 了 。 前 几 年 破解 的 RSA-158 密码 是 这 样 被 因数 
分 解 的 


39505874583265144526419767800614481996020776460304936 
4541393760515793556265294506836097278424682195350935 
44305870490251995655335710209799226484977949442955603 
= 3388495837466721394368393204672181522815830368604993 
048084925840555281177 x 116588234066712599031483765583 
832708181310122581463926004395209941313443341629245361 
39 


现在 ， 让 我 们 回 到 《暗算 》 中 ， 黄 依依 第 一 次 找 的 结果 经 过 一 系列 计算 
发 现 无 法 归 零 , 也 就 是 说 除 不 尽 , 我 猜 她 可 能 试图 将 一 个 大 数 N 做 分 解 ， 
没 成 功 。 第 二 次 计算 的 结果 是 归 零 了 , 说 明 她 找到 N = P x Q 的 分 解 方法 。 
当然 ， 这 件 事 铠 怕 是 不 能 用 算盘 完成 的 ， 所 以 我 觉得 编导 在 这 点 上 有 点 
夸张 。 另 外 ,该 电视 剧 还 有 一 个 讲 得 不 清 不 楚 的 地 方 就 是 里 面 提 到 的 “ 光 
复 一 号 ”密码 的 误差 问题 。 一 个 密码 是 不 能 有 误差 的 ， 否 则 就 是 有 了 密 
钥 也 无 法 解码 了 。 我 想 可 能 是 指 在 构造 密码 时 ，P 和 @ 之 一 没 找 对 ， 其 
中 一 个 (甚至 两 个 都 ) 不 小 心 找 成 了 合 数 ， 这 时 密码 的 保密 性 就 差 了 很 
多 。 如 果 谁 知道 电视 剧 里 面 讲 的 “误差 ”是 指 什么 ， 请 告诉 我 一 声 。 再 
有 ， 电视 剧 里 提 到 冯 “' 诺 依 曼 ， 说 他 是 现代 密码 学 的 祖宗 ， 这 是 完全 弄 
错 了 ， 应 该 是 香农 。 汉 “ 诺 依 曼 的 贡献 在 发 明 现代 电子 计算 机 和 提出 博 
弈 论 (Game Theory ) ， 和 密码 无 关 。 
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不 管 怎么 样 ， 我 们 今天 用 的 所 谓 最 可 靠 的 加 密 方法 ， 背 后 的 数学 原理 其 
实 就 这 么 简单 ， 一 点 也 不 神秘 ， 无 非 是 找 几 个 大 素数 做 一 些 乘 除 和 乘 方 
运算 就 可 以 了 。 但 就 是 靠 这 么 简单 的 数学 原理 ， 保 证 了 二 战 后 的 密码 几 
乎 无 法 被 破解 。 冷 战 时 期 美 苏 双方 都 投入 了 前 所 未 有 的 精力 去 获得 对 方 
的 情报 ， 但 是 没有 发 生 过 大 的 因为 密码 被 破 而 泄密 的 事件 。 


3 小 结 


我 们 在 介绍 信息 论 中 谈 到 ， 利 用 信息 可 以 消除 一 个 系统 的 不 确定 性 。 而 
利用 已 经 获得 的 信息 情报 来 消除 一 个 情报 系统 的 不 确定 性 就 是 解密 。 因 
此 ， 密 码 学 的 最 高 境界 就 是 无 论 敌 方 获取 多 少 密 文 ， 也 无 法 消除 已 方 情 
报 系统 的 不 确定 性 。 为 了 达到 这 个 目的 , 就 不 仅 要 做 到 密 文 之 间 相互 无 关 ， 
同时 密 文 还 是 看 似 完全 随机 的 序列 。 在 信息 论 诞生 后 ， 科 学 家 们 沿 着 这 
个 思路 设计 出 很 好 的 密码 系统 ， 而 公开 密 钥 是 目前 最 常用 的 加 密 办 法 。 


第 18 章 闪光 的 不 一 定 是 金子 一 谈 谈 
搜索 引擎 反 作 紫 问题 


自从 有 了 搜索 引擎 ， 就 有 了 针对 搜索 引擎 网 页 排名 的 作弊 ( SPAM ) 。 结 
果 用 户 发 现在 搜索 引擎 中 排名 靠 前 的 网 页 不 一 定 就 是 高 质量 的 、 相 关 的 网 
页 ， 而 是 商业 味 儿 非常 浓 的 作 观 网 页 。 用 名 俗话 说 ， 闪 光 的 不 一 定 是 金子 。 


搜索 引擎 的 作弊 ， 虽 然 方法 很 多 ， 目 的 只 有 一 个 ， 就 是 采用 不 正当 手段 提 
高 自己 网 页 的 排名 。 早 期 最 常见 的 作弊 方法 是 重复 关键 词 。 比 如 一 个 卖 数 
码 相机 的 网 站 , 重复 地 罗列 各 种 数码 相机 的 品牌 , 如 尼康 、 佳 能 和 柯达 等 等 。 
为 了 不 让 读者 看 到 众多 讨厌 的 关键 词 ， 聪 明 一 点 的 作弊 者 常用 很 小 的 字体 
和 与 背景 相同 的 颜色 来 掩盖 这 些 关 键 词 。 其 实 ， 这 种 做 法 很 容易 被 搜索 引 
擎 发 现 并 纠正 。 


RPR 
人 econes< 
6 


18.1 给 我 1 万 块 钱 ， 我 保证 你 的 网 站 在 Google 排 在 第 一 页 
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有 了 网 页 排名 ( PageRank ) 以 后 ， 作 商 者 发 现 一 个 网 页 被 引用 的 链接 越 
多 ， 排 名 就 可 能 越 靠 前 ， 于 是 就 有 了 专门 买卖 链接 的 生意 。 比 如 ， 有 人 
自己 创建 成 百 上 千 个 网 站 ， 这 些 网 站 上 没有 实质 的 内 容 ， 只 有 到 他 们 的 
客户 网 站 的 链接 。 这 种 做 法 比重 复 关键 词 要 高 明 得 多 ， 因 为 他 们 自己 隐 
藏 在 背后 ， 而 他 们 那些 客户 的 网 页 本 身 内 容 上 没有 什么 问题 ， 因 此 不 容 
易 被 发 现 。 但 是 ， 这 些 伎俩 还 是 能 够 被 识破 的 。 因 为 那些 所 谓 帮 别人 提 
高 排名 的 网 站 , 为 了 维持 生意 需要 大 量 地 卖 链接 , 所 以 很 容易 露 马 脚 。( 这 
就 如 同 造假 钞票 ， 当 某 一 种 假 钞票 的 流通 量 相当 大 以 后 ， 就 容易 找到 源 
头 。) 再 以 后 ， 又 有 了 形形色色 的 作 商 方式 ， 这 里 就 不 一 一 装 述 了 。 


2002 年 ， 我 加 入 Google 做 的 第 一 件 事 就 是 消除 网 络 作弊 ， 因 为 那 时 搜 
索引 擎 的 作 兽 实在 太 严重 。 当 时 全 世界 没有 人 做 过 反 作 螺 的 工作 ， 作 肉 
者 也 不 会 知道 我 们 要 清除 他 们 。 经 过 我 们 几 个 人 几 个 月 的 努力 ， 一 举 清 
除了 一 半 的 作弊 者 ,并 且 接 下 来 陆 陆 续 续 把 绝 大 多 数 都 清除 了 。 ( 当然 ， 
以 后 抓 作弊 的 效率 就 不 会 有 这 么 高 了 。) 作 弊 者 没有 想到 我 们 会 清除 他 们 。 
其 中 一 部 分 网 站 从 此 “ 痛 改 前 非 ”, 但 还 是 有 很 多 网 站 换 一 种 作 蛇 方法 
继续 作弊 。 这 些 是 在 我 们 预料 之 中 的 , 我 们 也 准备 了 后 招 等 着 他 们 。 因 此 ， 
抓 作弊 成 了 一 种 长 期 的 “ 猫 捉 老鼠 ”的 游戏 。 虽 然 至 今 还 没有 一 个 一 劳 
永 逸 解决 作弊 问题 的 方法 ， 但 是 ，Google 基本 做 到 了 对 于 任何 已 知 的 作 
兽 方 法 ， 在 一 定时 间 内 发 现 并 清除 ， 从 而 将 作 旺 网 站 的 数量 控制 在 一 个 
很 小 的 比例 范围 内 。 


做 事情 的 方法 有 道 和 术 两 种 境界 ， 搜 索 反 作 观 也 是 如 此 。 在 “ 术 ” 这 个 
层面 的 方法 大 多 是 看 到 作弊 的 例子 ， 分 析 它 ， 然 后 清除 它 ， 这 种 方法 能 
解决 问题 ， 而 且 不 需要 太 动 脑筋 ， 但 是 工作 量 较 大 ， 难 以 从 个 别 现象 上 
升 到 普遍 规律 。 很 多 崇尚 人工” 的 搜索 引擎 公司 喜欢 这 样 的 方法 。 在 “ 道 ” 
这 个 层面 解决 反 作 束 问 题 ， 就 要 透 过 具体 的 作弊 例子 ， 找 到 作 头 的 动机 
和 本 质 。 然 后 ， 从 本 质 上 解决 问题 。 


我 们 发 现 ， 通 信 模 型 对 于 搜索 反 作 弊 依然 适用 。 在 通信 中 解决 噪音 干扰 
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问题 的 基本 思路 有 两 条 。 


1， 从 信息 源 出 发 ， 加 强 通信 ( 编码 ) 自身 的 抗 干扰 能 力 。 
2.， 从 传输 来 看 ， 过 滤 掉 噪音 ， 还 原 信息 。 


搜索 引擎 作弊 从 本 质 上 看 就 如 同 对 ( 搜索 ) 排序 的 信息 加 入 噪音 ， 因 此 
反 作 弊 的 第 一 条 是 要 增强 排序 算法 的 抗 噪声 能 力 。 其 次 是 像 在 信号 处 理 
中 去 噪音 那样 ， 还 原 原 来 真实 的 排名 。 学 过 信息 论 和 有 信号 处 理 经 验 的 
读者 可 能 知道 这 么 一 个 事实 : 如 果 在 发 动机 很 吵 的 汽车 里 用 手机 打 电 话 ， 
对 方 可 能 听 不 清 ; 但 是 如 果 知 道 了 汽车 发 动机 的 频率 ， 可 以 加 上 一 个 和 
发 动机 噪音 频率 相同 , 振幅 相反 的 信号 , 便 很 容易 地 消除 发 动机 的 噪音 ， 
这 样 ， 接 听 人 可 以 完全 听 不 到 汽车 的 噪音 。 事 实 上 ， 现 在 一 些 高 端 手机 
已 经 有 了 这 种 检测 和 消除 噪音 的 功能 。 消 除 噪音 的 流程 可 以 概括 如 下 ， 


噪音 


输入 信号 CD 的、 全 号 


18.2 ”通信 中 消除 噪音 的 过 程 


在 图 18.2 中 , 原始 的 信号 混 人 了 噪音 , 在 数学 上 相当 于 给 两 个 信号 做 卷 积 。 
噪音 消除 的 过 程 是 一 个 解 卷 积 的 过 程 。 这 在 信号 处 理 中 并 不 是 什么 难题 。 
因为 第 一 , 汽车 发 动机 的 频率 是 固定 的 , 第 二 , 这 个 频率 的 噪音 重复 出 现 ， 
只 要 采集 几 秒 钟 的 信号 进行 处 理 就 能 做 到 。 从 广义 上 讲 ， 只 要 噪音 不 是 
完全 随机 并 且 前 后 有 相关 性 ， 就 可 以 检测 到 并 且 消 除 。 ( 事实 上 ， 完 全 
随机 不 相关 的 高 斯 白 噪音 是 很 难 消除 的 。 ) 


搜索 引擎 的 作弊 者 所 做 的 事 ， 就 如 同 在 手机 信号 中 加 入 了 噪音 ,使 得 搜 
索 结果 的 排名 完全 乱 了 。 但 是 ， 这 种 人 为 加 入 的 噪音 并 不 难 消除 ,因为 
作弊 者 的 方法 不 可 能 是 随机 的 〈 否则 就 无 法 提高 排名 了 ) 。 而 且 ， 作 浆 
者 也 不 可 能 是 一 天 换 一 种 方法 ， 即 作 整 方法 是 时 间 相 关 的 。 因 此 ?7 搞 搜 
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1 
很 多 作 兽 的 网 页 
落地 页 (Landing 
Page ) 内 容 质量 非 
常 高 ， 但 是 里 面 暗 
藏 一 个 JavaScript 
跳 转 到 另外 一 个 商 
业 网 站 。 因 此 ， 用 
户 进入 这 个 网 页 后 ， 
落地 的 网 页 只 是 一 
闪 而 过 ， 就 进入 到 
作 兽 的 网 页 。 搜 索 
引 艇 息 虫 下 载 这 个 
网 页 后 ， 会 按照 它 
高 质量 的 内 容 建 索 
引 。 用 户 查找 信息 
时 ， 这 些 落地 页 因 
为 内 容 较 好 ， 就 被 
排 在 前 面 ， 但 是 用 
户 看 到 的 是 和 搜索 
无 关 的 内 容 。 


索引 擎 排名 算法 的 人 ， 可 以 在 搜集 一 段 时 间 的 作弊 信息 后 ， 将 作 束 者 抓 
出 来 ， 还 原 原 有 的 排名 。 当 然 这 个 过 程 需 要 时 间 ， 就 如 同 采集 汽车 发 动 
机 的 噪音 需要 时 间 一 样 , 在 这 段 时 间 内 , 作弊 者 可 能 会 尝 到 些 甜头 。 因此 ， 
有 些 人 看 到 自己 的 网 站 经 过 所 谓 的 优化 (其实 是 作弊 ) ， 排 名 在 短期 内 
靠 前 了 ， 以 为 这 种 所 谓 的 优化 是 有 效 的 。 但 是 ， 不 久 就 会 发 现 排 名 掉 下 
去 了 很 多 。 这 倒 不 是 搜索 引擎 以 前 宽容 ， 现 在 严厉 了 ， 而 是 说 明 抓 作 弊 
需要 一 定 的 时 间 ， 以 前 只 是 还 没有 检测 到 这 些 作弊 的 网 站 而 已 。 


从 动机 上 讲 ， 作 螺 者 无 非 是 想 让 自己 的 网 站 排名 靠 前 ， 然 后 获得 商业 
的 利益 。 而 帮助 别人 作弊 的 人 ( 他 们 自称 是 搜索 引擎 优化 者 ，Search 
Engine Optimizer，SEO ) ， 他 们 也 是 要 从 中 人 牟利 的 。 掌 握 了 动机 就 可 以 
针对 他 们 的 动机 进行 防范 。 具 体 的 做 法 是 ， 针 对 和 商业 相关 的 搜索 ， 采 
用 一 套 “ 抗 干扰 ” 强 的 搜索 算法 ， 这 就 如 同 在 高 噪音 环境 下 采用 抗 干扰 
的 麦克 风 一 样 。 而 对 信息 类 的 搜索 ， 采 用 “敏感 ”的 算法 ， 就 如 同 在 安 
静 环 境 下 采用 敏感 的 麦克 风 ， 对 轻微 的 声音 也 能 有 很 好 的 效果 。 那 些 卖 
链接 的 网 站 ， 都 有 大 量 的 出 链 ( Out Links ) ， 而 这 些 出 链 的 特点 和 不 作 
弊 的 网 站 的 出 链 特点 大 不 相同 ( 可 能 他 们 自己 不 觉得 ) 。 每 一 个 网 站 到 
其 他 网 站 的 出 链 数目 可 以 作为 一 个 向 量 ， 它 是 这 个 网 站 固有 的 特征 。 既 
然 是 向 量 ， 我 们 就 可 以 计算 余弦 距离 。 ( 余弦 定理 又 派 上 了 用 处 ! ) 我 
们 发 现 ， 有 些 网 站 的 出 链 向 量 之 间 的 余弦 距离 几乎 为 1， 一 般 来 讲 这 些 网 
站 通常 是 一 个 人 建 的 ， 目 的 只 有 一 个 : 卖 链接 。 发 现 这 个 规律 后 ， 我 们 
改进 了 PageRank 算法 ， 使 得 买 来 的 链接 基本 上 起 不 到 作用 。 


反 作 弊 用 到 的 另 一 个 工具 是 图 论 。 在 图 中 ， 如 果 有 几 个 节点 两 两 互相 都 
连接 在 一 起 ， 它 们 称 为 一 个 Clique。 作 弊 的 网 站 一 般 需 要 互相 链接 ， 以 
提高 自己 的 排名 。 这 样 在 互联 网 这 张大 图 中 就 形成 了 一 些 Clique。 图 
论 中 有 专门 的 发 现 Clique 的 方法 ， 可 以 直接 应 用 到 反 作 弊 中 。。 这 里 我 
们 再 次 看 到 数学 的 作用 。 至 于 术 的 层面 方法 则 很 多 ,- 比如 针对 作 浆 的 
JavaScript 跳 转 页 面 '， 通 过 解析 相应 的 JavaScript 内 容 即 可 。 
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最 后 还 要 强调 几 点 ， 第 一 ，Google 反 作 刺 和 恢复 网 站 原 有 排名 的 过 程 完 
全 是 自动 的 ( 并 没有 个 人 的 好 恶 ) ,就 如 同 手机 消除 噪音 是 自动 的 一 样 。 
一 个 网 站 要 想 长 期 排名 靠 前 ， 就 需要 把 内 容 做 好 ， 同 时 要 和 那些 作弊 网 
站 划 清 界限 。 第 二 ， 大 部 分 搜索 引擎 和 帮助 别人 作 商 的 人 ， 只 针对 占 市 
场 份额 最 大 的 搜索 引擎 算法 来 作 系 ,因为 作 兹 也 是 有 成 本 的 ， 针 对 只 有 
市 场 份额 不 到 5% 的 引擎 作弊 ， 在 经 济 上 实在 不 划算 。 因 此 ， 一 个 小 的 搜 
索引 擎 作 吉 少 ， 并 不 一 定 是 它 的 反 作 整 技术 好 ， 而 是 到 它 那里 作 整 的 人 
太 少 。 


近年 来 ， 随 着 主流 搜索 引擎 对 反 作 深 持续 不 断 的 投入 ， 在 世界 上 大 多 数 
国家 ， 作 弊 的 成 本 越 来 越 高 了 ， 逐 渐 赶 上 甚至 超过 了 花 钱 在 搜索 引擎 上 
做 广告 的 费用 。 现 在 ， 希 望 提高 网 站 排名 的 商家 越 来 越 多 地 选择 通过 购 
买 搜 索 广告 的 方式 来 获取 流量 ,而 不 是 作 兹 。 一 些 体面 的 网 站 也 和 作 羡 
者 划 清 界限 。 但 是 在 中 国 恰恰 出 现 了 一 些 相反 的 趋势 ; 一 些 网 站 ， 包 括 
一 些 政府 网 站 ,为 了 蝇头 小 利 ， 出 卖 链接 。 这 样 就 诞生 了 一 个 灰色 收入 
的 行业 : 收购 和 贩卖 链接 的 中 间 商 。 当 然 ， 狐 狸 穿 过 草丛， 还 是 要 留 下 
痕迹 和 气味 的 ， 这 就 给 了 猎人 追捕 它们 的 线索 。 


网 页 搜索 反 作 弊 对 于 搜索 引擎 公司 来 讲 是 一 项 长 期 的 任务 。 作 弊 的 本 质 
是 在 网 页 排名 信号 中 加 入 了 噪音 ， 因 此 反 作 弊 的 关键 是 去 噪音 。 沿 着 这 
个 思路 可 以 从 根本 上 提高 搜索 算法 抗 作弊 的 能 力 ， 事 半 功 倍 。 而 如 果 只 
是 根据 作弊 的 具体 特征 头痛 医 头 ， 脚 痛 医 脚 ， 则 很 容易 被 作弊 者 牵 着 鼻 
子 走 。 
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第 19 章 谈 谈 数 学 模型 的 重要 性 


一 直 关注 “数学 之 美 ”系列 的 读者 可 能 已 经 发 现 ， 我 们 对 任何 问题 总 是 
在 找 相应 的 准确 的 数学 模型 。 为 了 说 明 模型 的 重要 性 ，2006 年 7 月 我 在 
Google 中 国内 部 讲授 搜索 基本 原理 ， 一 共 只 有 30 学 时 的 课程 ， 却 用 了 
整整 两 个 学 时 来 讲 数学 模型 。2010 年 我 到 腾讯 后 ,第 一 次 内 部 技术 讲座 
也 是 讲述 同样 的 内 容 。 


在 包括 哥 白 尼 、 伽 利 略 和 牛顿 在 内 的 所 有 天 文学 家 中 ， 我 最 佩服 的 是 地 
心 说 的 提出 者 托 勒 密 ( Claude Ptolemy， 公 元 90-168 年 ) 。 


图 19.1 伟大 的 天 文学 家 托 勒 密 
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天 文学 起 源 于 古 埃 及 。 由 于 尼罗河 洪水 每 年 泛滥 一 次 ， 尼 罗 河 下 游 有 着 十 
分 肥沃 而 且 灌溉 方便 的 土地 ， 因 此 孕育 出 人 类 最 早 的 农业 文明 。 每 当 洪水 
过 后 ， 埃 及 人 就 在 退 洪 的 土地 上 耕作 ， 然 后 便 可 获得 很 好 的 收成 。 这 种 生 
产 方式 一 直 延 续 到 20 世纪 60 年 代 , 直到 尼罗河 上 的 阿 斯 旺 大 坝 修成 ， 
尼罗河 下 游 再 也 没有 洪水 可 以 灌溉 土地 为 止 。 ( 埃及 延续 了 几 千 年 的 农业 
也 因此 被 破坏 列 尽 。 ) 为 了 准确 预测 洪水 到 来 和 退去 的 时 间 ，6 000 年 前 
的 埃及 人 发 明了 天 文学 。 和 我 们 想象 的 不 同 ， 古 埃及 人 是 根据 天 狼 星 和 太 
阳 在 一 起 的 位 置 来 判断 一 年 中 的 时 间 和 节气 。 在 古 埃 及 的 历法 中 没有 闽 年 ， 
它 的 一 个 “季度 ”也 非常 长 : 长 达 365 x 4 十 1 = 1 461 天 ， 因 为 每 隔 这 么 
多 天 ， 太 阳 和 天 狼 星 一 起 升 起 。( 因此 ， 古 埃及 的 日 历 是 一 个 周期 很 长 的 
日 历 。) 事实 证 明 ， 以 天 狼 星 和 太阳 同时 出 现 做 参照 系 比 仅 以 太阳 做 参照 
系 更 准确 些 。 古 埃及 人 可 以 准确 地 判断 洪水 能 到 达 的 边界 和 时 间 。 


图 19.2 古 埃及 的 农业 文明 受益 于 尼罗河 的 洪水 ， 它 直接 促进 了 天 文学 的 诞生 


到 了 人 类 文明 的 第 二 个 中 心 美 索 不 达 米 亚 兴起 的 时 候 ， 那 里 的 古巴 比 伦 
人 对 天 文学 有 了 进一步 的 发 展 ， 他 们 的 历法 中 有 了 月 和 四 季 的 概念 。 同 
时 他 们 观测 到 了 五 大 行星 ( 金 、 木 、 水 、 火 、 土 肉眼 看 不 到 天 王 星 和 
海王 星 ) 运行 的 轨迹 不 是 简单 地 围绕 地 球 转 ， 而 是 波浪 形 地 运动 5 西方 
语言 中 行星 ( Planet ) 一 词 的 意思 就 是 漂移 的 星球 。 他 们 还 观测 到 行星 在 
近日 点 运动 比 远 日 点 快 。( 图 19.3 是 在 地 球 上 看 到 的 金星 的 轨迹 , 看 过 《 达 
芬 奇 密码 》 一 书 的 读者 知道 ， 金 星 大 约 每 四 年 在 天 上 画 一 个 五 角 星 。) 
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图 19.3 在 地 球 上 看 到 的 金星 的 运动 轨迹 


但 是 真正 创立 了 天 文学 ， 并且 计算 出 诸多 天 体 运行 轨迹 的 是 近 两 千年 前 
古 罗 马 时 代 的 克 劳 第 斯 * 托 勒 密 。 虽 然 今 天 我 们 可 能 会 嘲笑 托 勒 密 犯 的 
简单 错误 ， 比 如 太阳 是 围绕 地 球 旋转 的 ， 但 是 真正 了 解 托 勒 密 贡 献 的 人 
都 会 对 他 肃然 起 敬 。 在 过 去 的 几 十 年 里 ， 因 为 政治 的 需要 ， 托 勒 密 在 中 
国 总 是 被 作为 错误 理论 的 代表 受到 批判 ， 以 至 于 中 国人 基本 上 不 知道 他 
在 人 类 天 文学 上 无 以 伦比 的 贡献 。 我 本 人 也 是 在 美国 读 了 些 科学 史 的 书 
籍 才 了 解 到 他 的 伟大 之 处 。 作 为 数学 家 和 天 文学 家 的 托 勒 密 ， 他 有 很 多 
发 明和 贡献 , 其 中 任何 一 项 都 足以 让 他 在 科学 史上 占有 重要 的 一 席 之 地 。 
托 勒 密 发 明了 球 坐标 ( 我 们 今天 还 在 用 ) ， 定 义 了 包括 赤道 和 零度 经 线 
在 内 的 经 纬 线 ( 今天 的 地 图 就 是 这 么 划 的 ) ， 他 提出 了 黄道 ， 还 发 明了 
弧度 制 ( 中 学 生 学 习 的 时 候 可 能 还 会 感觉 有 点 抽象 ) 。 


当然 ， 他 最 大 也 是 最 有 争议 的 发 明 是 地 心 说 。 虽 然 我 们 知道 地 球 是 围绕 
太阳 运动 的 ， 但 是 在 当时 ， 从 人 们 的 观测 出 发 ， 很 容易 得 到 地 球 是 宇宙 
中 心 的 结论 。 中 国 古 代 著 名 天 文学 家 张衡 提出 的 浑 天 说 , 其 实 就 是 地 心 说 ， 
但 是 张衡 没有 能 定量 地 进行 描述 。 从 下 面 两 张 图 中 可 以 看 出 两 者 非常 相 
似 。 只 不 过 因为 张衡 是 中 国人 的 骄傲 ， 在 历史 书 中 从 来 是 正面 宣传 ， 而 
托 勒 密 在 中 国 却 成 了 唯心 主义 的 代表 。 其 实 ， 托 勒 密 在 天 文学 上 的 地 位 
堪 比 欧 几 里 德 之 于 几何 学 ， 牛 顿 之 于 物理 学 。 
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“图 19.4 “ 托 勒 密 的 地 心 说 模型 


19.5 “张衡 的 浑 天 仪 ( 很 像 地 心 说 的 模型 ) 
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当然 从 地 球 上 看 ， 行 星 的 运动 轨迹 是 不 规则 的 ， 托 勤 密 的 伟大 之 处 是 用 
40-60 个 小 圆 套 大 圆 的 方法 ， 精 确 地 计算 出 了 所 有 行星 运动 的 轨迹 ， 如 
图 19.6 所 示 。 托 勒 密 继承 了 毕 达 格拉 斯 的 一 些 思想 ， 他 也 认为 圆 是 最 完 
美的 几何 图 形 ， 因 此 用 圆 来 描述 行星 运行 的 规律 。 


图 19.6 托 勒 密 的 小 加 套 大 圆 的 地 心 说 模型 


托 勒 密 模型 的 精度 之 高 ,让 后 来 所 有 的 科学 家 都 惊叹 不 已 。 即 使 今天 ， 
我 们 在 计算 机 的 帮助 下 ， 也 很 难 解 出 40 个 套 在 一 起 的 圆 的 方程 。 每 
每 想到 这 里 ， 我 都 由 囊 地 佩服 托 勒 密 。 根 据 托 勒 密 的 计算 ， 制 定 了 侨 
略 历 ， 即 每 年 365 天 ,每 4 年 增加 一 个 半年 ， 多 一 天 。1500 年 来 ， 
人 们 根据 他 的 计算 决定 农时 。 但是， 经 过 了 1 500 年 ， 托 勒 密 对 太阳 
运动 的 累积 误差 .还 是 多 出 了 10 天 。 由 于 这 十 天 的 差别 ， 欧 洲 的 农 
民 从 事 农 业 生产 差 出 几乎 一 个 节气 ， 很 影响 农业 。1582 年 ， 教 皇 格 
利 高 里 十 三 世 在 日 历 上 取消 掉 10 天 ， 然 后 将 每 一 个 世纪 最 后 一 年 的 
冰 年 改 成 平年 ， 然 后 每 400 年 再 插 回 一 个 半年 ， 这 就 是 我 们 今天 用 的 
日 历 ， 这 个 日 历 几乎 没有 误差 。 为 了 纪念 格 利 高 里 十 三 世 ， 我 们 今天 
的 日 历 也 叫做 格 利 高 里 日 历 。 
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图 19.7 枕 蒂 冈 圣 彼 得 教堂 里 的 格 利 高 里 慕 ， 上 面 的 雕像 中 ， 教 皇 格 利 高 里 手持 新 的 历法 


虽然 格 利 高 里 十 三 世 “ 凑 出 了 ”准确 的 历法 ， 即 每 400 年 比 颂 略 历 减 去 
三 个 头 年 。 但 是 教皇 并 没有 从 理论 上 找 出 原因 ， 因 此 这 种 “次 ”的 做 法 
很 难 举一反三 。 格 利 高 里 的 历法 非常 准 地 反映 了 地 球 的 运动 周期 ， 但 是 
对 其 他 行星 的 运动 规律 起 不 到 任何 帮助 。 而 纠正 地 心 说 错误 不 能 是 靠 在 
托 勒 密 40 个 圆 的 模型 上 再 多 套 上 几 个 圆 ， 而 是 要 进一步 探索 真理 。 波 
兰 天 文学 家 哥 白 尼 发 现 ， 如 果 以 太阳 为 中 心 来 描述 星体 的 运行 ， 只 需要 
8-10 个 圆 ， 就 能 计算 出 一 个 行星 的 运动 轨迹 ， 他 因此 提出 了 日 心 说 。 很 
遗憾 的 事 ， 哥 白 尼 正 确 的 假设 并 没有 得 到 比 托 勒 密 更 好 的 结果 ， 他 的 模 
型 的 误差 比 托 勒 密 模 型 的 误差 要 大 不 少 。 哥 白 尼 生 前 怕 他 的 日 心 说 惹 怒 
教会 ， 迟 迟 不 敢 发 表 他 的 学 说 ， 直 到 临终 前 才 发 表 。 而 教会 初期 对 这 个 
新 的 学 说 的 革命 性 也 认识 不 足 ， 并 没有 禁止 。 但 是 后 来 当 教 会 发 现 这 个 
学 说 有 可 能 挑战 上 帝 创 世 记 的 说 法 时 ， 便 开始 禁止 它 了 。/ 而 哥 白 尼 日 心 
说 的 不 准确 性 ， 也 是 教会 和 当时 的 人 们 认为 哥 白 尼 的 学 说 是 邪说 的 另 一 
个 重要 原因 。 所 以 日 心 说 要 想 让 人 心服 口服 地 接受 ， 就 得 更 准确 地 描述 
行星 运动 。 
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完成 这 一 使 命 的 是 约翰 内 斯 * 开 普 勒 。 开 普 勒 在 所 有 一 流 的 天 文学 家 中 , 资 
质 较 差 ,一 生 中 犯 了 无 数 低级 的 错误 。 但 是 他 有 两 样 别人 没有 的 东西 ， 首 
先是 从 他 的 老师 第 谷 手中 继承 的 大 量 的 、 在 当时 最 精确 的 观测 数据 ， 其 
次 是 运气 。 开 普 勒 很 幸运 地 发 现 了 行星 围绕 太阳 运转 的 轨道 实际 上 是 机 
圆 形 的 ， 这 样 不 需要 用 多 个 小 圆 套 大 圆 ， 而 只 要 用 一 个 椭圆 就 能 将 星体 
运动 规律 描述 清楚 了 。 开 普 勒 为 此 提出 了 三 个 定律 ', 形式 都 非常 简单 ， 
就 是 三 句 话 。 只 是 开 普 勒 的 知识 和 水 平 不 足以 解释 为 什么 行星 的 轨迹 是 
椭圆 形 的 。 


Satum 


一 一 一 一- 
pr 
SSSea 人 


国 19.8 开 普 勒 的 行星 模型 


解释 行星 运动 的 轨道 为 什么 是 椭圆 形 这 个 光荣 而 艰巨 的 任务 ， 最 后 由 伟 
大 的 科学 家 牛顿 用 万 有 引力 定律 解释 得 清 清楚 楚 。 


故事 到 这 里 似乎 可 以 结束 了 。 但是, 许多 年 后 ， 又 有 了 个 小 的 波澜 。1821 
年 法 国 天 文学 家 布 瓦 尔 ( Alexis Bouvard ) 发 现 ， 天 王 星 的 实际 轨迹 和 用 
椭圆 模型 算出 来 的 不 太 和 符合。 当然， 偷懒 的 办 法 是 接着 用 小 圆 套 大 圆 的 
方法 修正 , 但 是 一 些 严 肃 的 科学 家 则 努力 寻找 真正 的 原因 。 英 国 的 亚当 
斯 (John Couch Adams ) 和 法 国 的 维 内 尔 ( Urbain Le Verrier ) 在 1861- 
1862 年 间 各 自 独立 地 发 现 了 吸引 天 王 星 偏离 轨道 的 海王 星 *。 


讲座 结束 时 ， 我 给 Google 中 国 和 腾讯 的 工程 师 们 总 结 了 下 面 几 个 结论 : 


1. 一 个 正确 的 数学 模型 应 当 在 形式 上 是 简单 的 。 ( 托 勒 密 的 模型 
显然 太 复杂 。 ) 


1 
开 普 勒 第 一 定律 : 
行星 围绕 恒星 运动 
的 轨道 是 一 个 椭圆， 
而 恒星 是 这 个 椭圆 
的 一 个 焦点 。 


开 普 勒 第 二 定律 ; 
行星 和 恒星 连 线 单位 
时 间 扫 j 过 单位 面积 。 
开 普 勒 第 三 定律 ; 
行星 绕 太阳 公转 周期 
的 平方 和 它们 的 椭圆 
轨道 的 半 长 灿 的 立方 
成 正比 。 


2 
天 文学 家 伽利略 其 
实 早 在 1612 年 和 
1613 年 两 次 观察 到 
海王 星 ， 但 是 他 将 
它 误 认为 是 一 显 恒 
星 ， 因 此 错过 了 发 
现 海王 星 的 机 会 
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2. 一 个 正确 的 模型 一 开始 可 能 还 不 如 一 个 精 雕 细 琢 过 的 错误 模型 
来 的 准确 , 但 是 , 如 果 我 们 认定 大 方向 是 对 的 , 就 应 该 坚持 下 去 。( 日 
心 说 开始 并 没有 地 心 说 准确 。 ) 


3， 大 量 准确 的 数据 对 研发 很 重要 。 ( 有 机 会 单独 介绍 。 ) 
4， 正 确 的 模型 也 可 能 受 噪 音 干扰 ， 而 显得 不 准确 ; 这 时 不 应 该 用 


一 种 次 合 的 修正 方法 来 弥补 它 ， 而 是 要 找到 噪音 的 根源 ， 这 也 许 能 
通 往 重大 的 发 现 。 


在 网 络 搜索 的 研发 中 ， 我 们 在 前 面 提 到 的 单 文本 词 频 / 逆 文 本 频率 指数 
(TF-1DF ) 和 网 页 排名 ( PageRank ) 可 以 看 作 是 网 络 搜索 中 的 “椭圆 模 
型 ”， 它 们 都 很 简单 易 懂 。 


第 20 章 不 要 把 鸡蛋 放 到 一 个 链子 里 
一 谈 谈 最 大 焙 模型 


我 们 在 投资 时 常常 讲 不 要 把 所 有 的 鸡蛋 放 在 一 个 篮子 里 ， 这 样 可 以 降低 
风险 。 在 信息 处 理 中 ， 这 个 原理 同样 适用 。 在 数学 上 ， 这 个 原理 称 为 最 
大 炉 原 理 ( The Maximum Entropy Principle ) 。 这 是 一 个 非常 有 意思 的 
题目 ， 但 也 比较 深奥 ， 因 此 只 能 大 致 介绍 它 的 原理 。 


在 网 络 搜索 排名 中 用 到 的 信息 有 上 百 种 ， 腾 讯 的 工程 师 经常 问 我 如 何 能 
把 它们 结合 在 一 起 用 好 。 更 普遍 地 讲 ， 在 信息 处 理 中 ， 我 们 常常 知道 各 
种 各 样 但 又 不 完全 确定 的 信息 ， 我 们 需要 用 一 个 统一 的 模型 将 这 些 信息 
综合 起 来 。 如 何 综合 得 好 ， 是 一 门 很 大 的 学 问 。 


让 我 们 看 一 个 拼音 转 汉字 的 简单 例子 。 假 如 输入 的 拼音 是 “Wang-Xiao- 
Bo”， 利 用 语言 模型 ， 根 据 有 限 的 上 下 文 〈 比如 前 两 个 词 ) ， 能 给 出 两 
个 最 常见 的 名 字 “王小波 ”和 “王晓波 ”。 至 于 要 唯一 确定 是 哪个 名 字 
就 难 了 ， 即 使 利用 较 长 的 上 下 文 也 做 不 到 。 当 然 ， 我 们 知道 ， 如 果 通 篇 
文章 是 介绍 文学 的 , 作家 王小波 的 可 能 性 就 较 大 ; 而 在 讨论 两 岸 关系 时 ， 
台湾 学 者 王晓波 的 可 能 性 会 较 大 。 在 上 面 的 例子 中 ， 只 需要 综合 两 类 不 
同 的 信息 , 即 主题 信息 和 上 下 文 信息 。 虽 然 有 不 少 凑合 的 办 法 ,比如 : 
分 为 成 千 上 万 种 不 同 的 主题 单独 处 理 ， 或 者 对 每 种 信息 的 作用 加 权 平 均 
等 等 ， 但 都 不 能 准确 而 圆满 地 解决 问题 ， 这 就 好 比 以 前 谈 到 的 行星 运动 
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模型 中 小 圆 套 大 圆 打 补丁 的 方法 。 在 很 多 应 用 中 ， 需 要 综合 几 十 甚至 上 
百 种 不 同 的 信息 ， 这 种 小 圆 套 大 圆 的 方法 显然 行 不 通 。 


1 最 大 炉 原 理 和 最 大 炳 模型 


数学 上 最 漂亮 的 办 法 是 最 大 炉 ( Maximum Entropy ) 模型 ， 它 相当 于 行 
星 运 动 的 椭圆 模型 。“ 最 大 炉 " 这 个 名 词 听 起 来 很 深奥 ,但 它 的 原理 很 简单 ， 
我 们 每 天 都 在 用 。 说 白 了 , 就 是 要 保留 全 部 的 不 确定 性 , 将 风险 降 到 最 小 。 
让 我 们 来 看 一 个 实际 例子 。 


有 一 次 ,我 去 AT&T 实验 室 作 关 于 最 大 灶 模 型 的 报告 ,随身 带 了 一 个 骨 子 。 
我 问 听众 “每 个 面 朝 上 的 概率 分 别 是 多 少 ”， 所 有 人 都 说 是 等 概率 ， 即 
各 种 点 数 的 概率 均 为 1 / 6。 这 种 猜测 当然 是 对 的 。 我 问 听众 们 为 什么 , 得 
到 的 回答 是 一 致 的 : 对 这 个 “一 无 所 知 ”的 山 子 ， 假定 它 每 一 个 朝 上 概率 
均等 是 最 安全 的 做 法 。 ( 你 不 应 该 主观 假设 它 像 韦小宝 的 货 子 一 样 灌 了 
铅 。) 从 投资 的 角度 看 ， 就 是 风险 最 小 的 做 法 。 从 信息 论 的 角度 讲 ， 就 
是 保留 了 最 大 的 不 确定 性 ， 也 就 是 说 让 炉 达 到 最 大 。 接 着 ,我 又 告诉 听 
众 ， 我 的 这 个 角子 被 我 特殊 处 理 过 ,已 知 四 点 朝 上 的 概率 是 1 /3， 在 这 
种 情况 下 ， 每 个 面 朝 上 的 概率 是 多 少 ? 这 次 ， 大 部 分 人 认为 除去 四 点 的 
概率 是 1 / 3， 其余 的 均 是 2/ 15， 也 就 是 说 已 知 的 条 件 〈 四 点 概率 为 1 / 
3 ) 必须 满足 ， 而 对 其 余 各 点 的 概率 因为 仍然 无 从 知道 ， 因 此 只 好 认为 它 
们 均等 。 注 意 ， 在 猜测 这 两 种 不 同情 况 下 的 概率 分 布 时 ， 大 家 都 没有 添 
加 任何 主观 的 假设 ,诸如 四 点 的 反面 一 定 是 三 点 等 等 。 (事实 上 ， 有 的 
山 子 四 点 的 反面 不 是 三 点 而 是 一 点 。) 这 种 基于 直觉 的 猜测 之 所 以 准确 ， 
是 因为 它 恰好 符合 了 最 大 炉 原 理 。 


最 大 粹 原理 指出 , 和 需要 对 一 个 随机 事件 的 概率 分 布 进行 预测 时 , 我 们 的 预 
测 应 当 满 足 全 部 已 知 的 条 件 , 而 对 未 知 的 情况 不 要 做 任何 主观 假设 : (不 
做 主观 假设 这 点 很 重要 ) 在 这 种 情况 下 ， 概 率 分 布 最 均匀 ， 预 测 的 风险 
最 小 。 因 为 这 时 概率 分 布 的 信息 炉 最 大 ， 所 以 人 们 称 这 种 模型 叫 “ 最 大 
炉 模 型 ”。 我 们 常 说 ,不 要 把 所 有 的 鸡蛋 放 在 一 个 篮子 里 ， 其 实 就 是 最 
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大 焙 原 理 的 一 个 朴素 的 说 法 ， 因 为 当 我 们 遇 到 不 确定 性 时 ， 就 要 保留 各 
种 可 能 性 。 


回 到 刚才 谈 到 的 拼音 转 汉字 的 例子 ， 我 们 已 知 两 种 信息 ， 第 一 ， 根 据 语 
言 模型 ，Wang-Xiao-Bo 可 以 被 转换 成 王晓波 和 王小波 ; 第 二 ， 根 据 主 
题 ， 王 小 波 是 作家 ，《 黄 金 时 代 》 的 作者 等 等 ， 而 王晓波 是 台湾 研究 两 
岸 关系 的 学 者 。 因此 , 就 可 以 建立 一 个 最 大 业 模 型 , 同时 满足 这 两 种 信息 。 
现在 的 问题 是 ， 这 样 一 个 模型 是 否 存在 。 匈 牙 利 著名 数学 家 、 信 息 论 最 
高 奖 香农 奖 得 主 希 萨 (I. Csiszar ) 证 明 , 对 任何 -- 组 不 自 相 矛 盾 的 信息 ， 
这 个 最 大 炳 模型 不 仅 存在 ， 而 且 是 唯一 的 。 此 外 ， 它 们 都 有 同一 个 非常 
简单 的 形式 一 指数 函数 。 下 面 的 公式 是 根据 上 下 文 (前 两 个 词 ) 和 主 
题 预测 下 一 个 词 的 最 大 箭 模型 ， 其 中 ws 是 要 预测 的 词 (王晓波 或 者 王 小 
波 ), w: 和 wz 是 它 的 前 两 个 字 ( 比如 说 它们 分 别 是 “出 版 ” 和 “小 说 家 ”) ， 
也 就 是 其 上 下 文 的 一 个 大 致 估计 ，s 表示 主题 。 


wwaws)+AaGws) 


Zw wa,s) (20.1) 


其 中 Z 是 归 一 化 因子 ,保证 概率 加 起 来 等 于 1。 


P(wslwi,wz,s) = 


在 上 面 的 公式 中 ， 有 几 个 参数 1 和 Z， 它 们 需要 通过 观测 数据 训练 出 来 。 
我 们 将 在 延伸 阅读 中 介绍 如 何 训练 最 大 炳 模型 的 诸多 参数 。 


最 大 灶 模 型 在 形式 上 是 最 漂亮 、 最 完美 的 统计 模型 ， 在 自然 语言 处 理 和 
金融 方面 有 很 多 有 趣 的 应 用 。 早 期 ， 由 于 最 大 炳 模型 计算 量 大 ， 试 图 使 
用 这 个 模型 的 科学 家 一 般 用 一 些 类 似 最 大 粹 的 近似 模型 。 谁 知 这 一 近似 ， 
最 大 炳 模型 就 从 完美 变 得 不 完美 了 。 结 果 可 想 而 知 ， 比 打 补 丁 的 凑合 的 
方法 也 好 不 了 多 少 。 于 是 , 不 少 原来 热衷 于 此 的 学 者 又 放弃 了 这 种 方法 s 
第 一 个 在 实际 信息 处 理应 用 中 验证 了 最 大 炳 模型 的 优势 的 是 宾夕法尼亚 
大 学 马 库 斯 的 高 徒 拉 纳 帕 提 ( Adwait Ratnaparkhi ) ， 原 IBM、 现 任 微软 
的 研究 员 。 拉 纳 帕 提 的 聪明 之 处 在 于 他 没有 对 最 大 粹 模型 进行 近似 ,而 
是 找到 了 几 个 最 适合 用 最 大 炉 模 型 而 计算 量 相对 不 太 大 的 自然 语言 处 理 
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问题 ， 比 如 词性 标注 和 句法 分 析 。 拉 纳 帕 提成 功 地 将 上 下 文 信息 、 词 性 、 
名 词 、 动 词 和 形容 词 等 句子 成 分 、 主 谓 宾 , 通过 最 大 粹 模型 结合 起 来 
做 出 了 当时 世界 上 最 好 的 词性 标识 系统 和 句法 分 析 器 。 拉 纳 帕 提 的 论文 
让 人 们 耳目 一 新 。 拉 纳 帕 提 的 词性 标注 系统 ， 至 今 仍然 是 使 用 单一 方法 
最 好 的 系统 。 从 拉 纳 帕 提 的 成 就 中 ,科学 家 们 又 看 到 了 用 最 大 炳 模型 解 
决 复杂 的 文字 信息 处 理 问题 的 希望 。 


在 2000 年 前 后 ， 由 于 计算 机 速度 的 提升 以 及 训练 算法 的 改进 ， 很 多 复杂 
的 问题 都 可 以 采用 最 大 炳 模型 了 , 包括 句法 分 析 、 语言 模型 和 机 器 翻译 。 
最 大 炳 模型 和 一 些 简 单 组 合 特征 的 模型 相 比 ,效果 可 以 提升 几 个 百分点 。 
对 于 那些 对 产品 质量 不 是 很 看 重 的 人 和 公司 来 讲 ， 这 几 个 百分点 或 许 不 
足以 给 使 用 者 带 来 明显 的 感受 ,但 是 如 果 投资 的 收益 能 增长 哪怕 百 分 之 
一 ， 获 得 的 利润 也 是 数 以 亿 计 的 。 因 此 ， 华 尔 街 向 来 最 喜欢 使 用 新 技术 
来 提高 他 们 交易 的 收益 。 而 证 券 ( 股票 、 债 券 等 ) 的 交易 需要 考虑 非常 
多 的 复杂 因素 ,因此 , 很 多 对 冲 基金 开始 使 用 最 大 炉 模 型 ， 并 且 取 得 了 
很 好 的 效果 。 


2 最 大 炳 模型 的 训练 


最 大 信 模 型 在 形式 上 非常 简单 ,但 是 在 实现 上 却 非常 复杂 ,计算 量 非常 大 。 
假定 我 们 搜索 的 排序 需要 考虑 20 种 特征 ，{X1,x2,…,x2o0}， 需 要 排序 的 网 
页 是 4， 那 么 即使 这 些 特征 互相 独立 ， 对 应 的 最 大 炳 模型 也 是 “很 长 ”的 


Pldlx1,x2, .x20) 


入 


= -~- eahaGead)+iz(xzd)+…+hzoCxzod) ( 
Cdlx1 2， 20.2) 
Z(x1, xz, ,X20) 


其 中 归 一 化 因子 
Z(x1, xz ..., X20) =D end td) ttaa0lz0d) (20.3) 
a 


这 个 模型 里 有 很 多 参数 4 需要 通过 模型 的 训练 来 获得 。 
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最 原始 的 最 大 粹 模型 的 训练 方法 是 一 种 称 为 通用 迭代 算法 GIS 
( Generalized Iterative Scaling ) 的 迭代 算法 。GIS 的 原理 并 不 复杂 ， 大 
致 可 以 概括 为 以 下 几 个 步骤 : 


1， 假 定 第 零 次 迭代 的 初始 模型 为 等 概率 的 均匀 分 布 。 


2， 用 第 次 迭代 的 模型 来 估算 每 种 信息 特征 在 训练 数据 中 的 分 布 。 
如 果 超 过 了 实际 的 ， 就 把 相应 的 模型 参数 变 小 。 否 则 , 将 它们 变 大 。 


3， 重 复 步骤 2 直到 收敛 。 


GIS 最 早 是 由 达 诺 奇 (J. N. Darroch ) 和 拉 特 克利 夫 ( D. Ratcliff ) 在 上 
个 世纪 70 年 代 提出 的 ， 它 是 一 个 典型 的 期 望 值 最 大 化 算法 ( Expectation 
Maximization， 简 称 EM ) 。 但 是 ， 这 两 人 没 能 对 这 种 算法 的 物理 含义 做 
出 很 好 的 解释 。 后 来 是 由 数学 家 希 萨 解释 清楚 的 。 因 此 ， 人 们 在 谈 到 这 
个 算法 时 ， 总 是 同时 引用 达 诺 奇 和 拉 特 克利 夫 以 及 希 萨 的 两 篇 论文 。GIS 
算法 每 次 迭代 的 时 间 都 很 长 ， 需 要 迭代 很 多 次 才能 收敛, 而 且 不 太 稳 定 ， 
即使 在 64 位 计算 机 上 都 会 出 现 溢出 。 因 此 ， 在 实际 应 用 中 很 少 有 人 真正 
使 用 GIS。 大 家 只 是 通过 它 来 了 解 最 大 炉 模 型 的 算法 。 


上 个 世纪 80 年 代 ， 天 赋 异 豪 的 达 拉 皮 垂 挛 生 兄弟 (Della Pietra ) 在 
IBM 对 GIS 算法 做 了 两 方面 改进 ， 提 出 了 改进 迁 代 算 法 IIS ( Improved 
Iterative Scaling )。 这 使 得 最 大 简 模型 的 训练 时 间 缩短 了 一 到 两 个 数量 级 。 
这 样 最 大 炳 模型 才 有 可 能 变 得 实用 。 即 使 如 此 ， 在 当时 也 只 有 IBM 有 条 
件 使 用 最 大 焙 模 型 。 


但 是 ,最 大 炳 模型 的 计算 量 仍 然 是 个 拦路 虎 。 我 在 学 校 时 花 了 很 长 时 间 
考虑 如 何 简 化 最 大 粹 模型 的 计算 量 。 有 很 长 一 段 时 间 里 ， 我 的 研究 方式 
就 和 书 果子 陈景润 一 样 ， 每 天 一 支 笔 ,一 珍 纸 ， 不 停 地 推导 。 终 于 有 一 
天 ,我 对 自己 的 导师 说 : 我 发 现 一 种 数学 变换 ， 可 以 将 大 部 分 最 大 焙 模 
型 的 训练 时 间 在 IIS 的 基础 上 减少 两 个 数量 级 。 我 在 黑板 上 推导 了 一 个 多 
小 时 ， 他 没 从 我 的 推导 中 找 出 任何 破绽 。 接 着 他 又 回去 想 了 两 天 ， 然 后 
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1 
现在 用 MapReduce 
的 工具 ， 在 1000 
台 计算 机 上 并 行 计 
算 ， 一 天 就 可 以 完 
成 了 。 

2 

wwwcsjhuedu/ ~ 


junwu/publications. 
html 


确认 我 的 算法 是 对 的 。 从 此 ， 我 们 就 构造 了 一 些 很 大 的 最 大 炳 模型 。 
这 些 模 型 比 修 修补 补 的 凑合 的 方法 好 不 少 。 即 使 在 我 找到 了 快速 训练 算 
法 以 后 ， 为 了 训练 一 个 包含 上 下 文 信息 、 主 题 信息 和 语法 信息 的 文法 模 
型 (Language Model ) ,我 并 行使 用 了 20 台 当 时 最 快 的 SUN 工作 站 ， 
仍然 计算 了 三 个 月 '。 由 此 可 见 最 大 炉 模型 复杂 的 一 面 。 最 大 炳 模型 快速 
算法 的 实现 很 复杂 。 到 今天 为 止 ， 世 界 上 能 有 效 实现 这 些 算法 的 也 不 到 
一 百人 。 有 兴趣 实现 一 个 最 大 炳 模型 的 读者 可 以 阅读 我 的 论文 *。 


最 大 焙 模 型 ,可 以 说 是 集 简 繁 于 一 体 : 形式 简单 ,实现 复杂 。 值 得 一 提 的 是 ， 
在 Google 的 很 多 产品 比如 机 器 翻译 中 ， 都 直接 或 间接 地 用 到 了 最 大 业 
模型 。 


讲 到 这 里 ,读者 也 许 会 问 ， 当 年 最 早 改进 最 大 炉 模 型 算法 的 达 拉 皮 垂 兄 
弟 这 些 年 难道 没有 做 任何 事 吗 ? 他 们 在 上 个 世纪 90 年 代 初 贾 里 尼克 离 
开 IBM 后 ， 也 退出 了 学 术 界 ， 而 到 金融 界 大 显 身 手 。 他 们 两 人 和 很 多 
IBM 做 语音 识别 的 同事 一 同 到 了 一 家 当时 还 不 大 ， 但 现在 是 世界 上 最 成 
功 的 对 冲 基金 (Hedge Fund ) 公司 一 文艺 复兴 技术 公司 ( Renaissance 
Technologies ) 。 我们 知道 , 决定 股票 涨 落 的 因素 可 能 有 几 十 甚至 上 百 种 ， 
而 最 大 料 方 法 恰恰 能 找到 一 个 同时 满足 成 千 上 万 种 不 同 条 件 的 模型 。 在 
那里 ， 达 拉 皮 垂 兄弟 等 科学 家 用 最 大 炳 模型 和 其 他 一 些 先进 的 数学 工具 
对 股票 进行 预测 ， 获 得 了 巨大 的 成 功 。 从 该 基金 1988 年 创立 至 今 ， 它 的 
净 回 报 率 高 达 平 均 每 年 34%。 也 就 是 说 ， 如 果 1988 年 你 在 该 基金 投入 一 
块 钱 ，20 年 后 的 2008 年 你 能 得 到 200 多 块 钱 。 这 个 业绩 ， 远 远 超过 股 
神 巴 非特 的 旗舰 公司 伯 克 希 尔 哈 撒 韦 〈 Berkshire Hathaway ) 。 同 期 , 伯 
克 希 尔 哈 撤 韦 的 总 回报 是 16 倍 。 而 在 金融 危机 的 2008 年 , 全 球 股市 暴跌 ， 
文艺 复兴 技术 公司 的 回报 却 高 达 80%， 可 见 数学 模型 的 厉害 。 
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3 小 结 


最 大 人 模 型 可 以 将 各 种 信息 整合 到 一 个 统一 的 模型 中 。 它 有 很 多 良好 的 
特性 : 从 形式 上 看 ， 它 非常 简单 ， 非 常 优 美 ; 从 效果 上 看 ， 它 是 唯一 一 
种 既 可 以 满足 各 个 信息 源 的 限制 条 件 ， 同 时 又 能 保证 平滑 ( Smooth ) 性 
的 模型 。 由 于 最 大 炉 模 型 具有 这 些 良好 的 特性 ， 它 的 应 用 范围 因而 十 分 
广泛 。 但 是 ， 最 大 炉 模 型 的 计算 量 巨 大 ， 在 工程 上 实现 方法 的 好 坏 决 定 
了 模型 的 实用 与 否 。 
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第 21 章 拼音 输入 法 的 数学 原理 


亚洲 语言 及 所 有 非 罗 马 拼音 式 的 语言 ( Non-Roman Languages ) 的 输入 
原本 是 个 问题 ， 但 是 近 20 年 来 ， 以 中 国 为 代表 的 亚洲 国家 在 输入 法 方面 
有 了 长 足 的 进步 ， 现 在 已 经 不 是 人 们 使 用 计算 机 的 障碍 了 。 以 中 文 输入 
为 例 ， 过 去 的 25 年 里 ， 输 入 法 基本 上 经 历 了 以 自然 音节 编码 输入 ， 到 偏 
旁 笔画 拆字 输入 , 再 回归 自然 音节 输入 的 过 程 。 和 任何 事物 的 发 展 一 样 ， 
这 个 螺旋 式 的 回归 不 是 简单 的 重复 ， 而 是 一 种 升华 。 


输入 法 输入 汉字 的 快慢 取决 于 对 汉字 编码 的 平均 长 度 , 用 通俗 的 话 来 讲 ， 
就 是 击 键 次 数 乘 以 寻找 这 个 键 所 需要 的 时 间 。 单 纯 地 减少 编码 长 度 未 必 
能 提高 输入 速度 ， 因 为 寻找 一 个 键 的 时 间 可 能 变 得 较 长 。 提 高 输入 法 的 
效率 在 于 同时 优化 这 两 点 ， 而 其 中 有 着 坚实 的 数学 基础 。 我 们 可 以 通过 
数学 的 方法 说 明 平 均 输入 一 个 汉字 需要 多 少 次 击 键 ， 如 何 编码 能 够 使 得 
输入 法 接近 理论 上 的 最 小 值 ， 同 时 寻找 一 个 键 的 时 间 又 不 至 于 过 长 。 


1 输入 法 与 编码 


将 一 个 方块 形状 的 汉字 输入 到 计算 机 中 ， 本 质 上 是 一 个 将 我 们 入 为 约 
定 的 信息 记录 编码 一 汉字， 转换 成 计算 机 约定 的 编码 ( 国标 码 或 者 
UTF-8 码 ) 的 信息 转换 过 程 。 键 盘 是 一 种 主要 的 输入 工具 ， 当 然 还 可 以 


186 咱 数学 之 美 


有 其 他 输入 工具 ， 比 如 手写 板 和 麦克 风 。 一 般 来 讲 ， 键 盘 上 可 使 用 的 只 
有 26 个 字母 加 上 10 个 数字 键 作为 对 汉字 编码 的 基本 键 , 外 加 一 些 控制 键 。 
因此 ， 最 直接 的 编码 方式 就 是 让 这 26 个 字母 对 应 拼音 ， 当 然 ， 为 了 解决 
汉字 的 一 音 多 字 问 题 ， 得 用 10 个 数字 键 来 消除 歧义 性 。 


这 里 面 ， 对 汉字 的 编码 分 为 两 部 分 : 对 拼音 的 编码 (参照 汉语 拼音 标准 
即 可 ) 和 消除 歧义 性 的 编码 。 对 一 个 汉字 编码 的 长 度 取决 于 这 两 方面 ， 
只 有 当 这 两 个 编码 都 缩短 时 ， 汉 字 的 输入 才能 够 变 快 。 早 期 的 输入 法 常 
常 只 注重 第 一 部 分 而 忽视 第 二 部 分 。 


虽然 全 拼 输 入 法 和 汉语 拼音 标准 一 致 ， 容 易学 习 ， 但 是 ， 拼 音 输入 法 早 
期 甚至 是 双 拼 早 于 全 拼 , 原因 是 为 了 缩短 对 拼音 的 编码 。 在 双 拼 输入 法 中 ， 
每 个 声母 和 前 母 只 用 一 个 键 即 可 表示 。 中 国 最 早 可 以 输入 汉字 的 微机 中 
华 学 习 机 和 长 城 0520， 分 别 对 应 苹果 系列 和 IBM 系列 ， 采 用 的 都 是 双 拼 
的 输入 方案 。 台 湾 地 区 用 的 注音 字母 也 等 效 于 双 拼 。 各 家 的 双 拼 对 应 键 
盘 字 母 的 方式 还 略 有 不 同 ， 以 微软 公司 为 例 ， 对 应 如 下 : 


表 211 声母 和 键盘 字母 对 应 表 


前 母 记 ua eruanvan ue uai uo unwn ongiong 


键盘 字母 q ww r 7 s 
韵母 uangiang en eng ang an ao ail ing 
键盘 字母 d f B h k 1 
韵母 ei ie iao uue ou in iam 
键盘 字母 x < v b n m 


这 些 输入 方法 看 似 节省 了 一 点 编码 长 度 ， 但 是 输入 一 点 也 不 快 ， 因 为 它 
们 只 优化 了 局 部 ， 而 伤害 了 整体 。 首 先 ， 双 拼 输 入 法 增加 了 编码 上 的 歧 
义 性 : 键盘 的 字母 只 有 26 个 ， 可 是 汉语 的 声母 和 韵母 总 和 却 有 ,50 多 
个 。 从 上 表 中 可 以 看 到 ,很 多 韵母 不 得 不 共享 一 个 字母 键 。 增 加 歧义 性 
的 结果 就 是 从 更 多 汉字 候选 中 找到 自己 想 输入 的 字 , 也 就 是 增加 消除 歧 
义 性 编码 的 长 度 : 不 断 地 重复 “ 翻 页 ， 扫 描 后 续 字 ”的 过 程 。 第 二 。 它 
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增加 了 每 一 次 击 键 的 时 间 。 因 为 双 拼 的 方法 不 自然 ， 比 全 拼 的 方法 多 出 
来 一 道 将 读音 拆 成 声母 和 前 母 编码 的 过 程 。 认 知 科学 的 研究 表明 ， 在 脱 
稿 输入 时 ， 拆 字 的 过 程 会 使 得 思维 变 慢 。 第 三 ， 双 拼 对 读音 的 容错 性 
不 好 ， 因 为 前 鼻音 an 、en 、in 和 对 应 的 后 鼻音 ang、eng、ing， 卷 舌 音 
ch 、sh 、zh 和 相应 的 平 舌 音 ( 非 卷 舌 音 ) 编码 完全 没有 相似 性 。 全 中 国 
除了 北京 周围 的 人 ， 大 部 分 人 前 鼻音 和 后 鼻音 、 卷 舌 音 和 非 卷 舌 音 多 少 
有 点 分 不 清 ， 经 常 出 现 输入 韵母 和 声母 后 ， 翻 了 好 几 页 ， 也 找 不 到 自己 
想 要 的 字 的 情况 。 原 因 是 一 开始 就 选 错 了 韵母 或 者 声母 。 一 个 好 的 输入 
法 不 能 要 求 用 户 一 定 得 把 每 个 字 的 音 都 读 准 ， 就 如 同一 架 普 及 型 的 照相 
机 不 应 该 要 求 使 用 者 精通 光圈 和 快门 速度 的 设置 。 


由 于 种 种 原因 ， 早 期 的 拼音 输入 法 不 是 很 成 功 ， 这 就 给 其 它 输 入 法 的 迅 
速 崛 起 创造 了 条 件 。 很 快 , 各 种 输入 法 如 雨后春笋 般 地 冒 了 出 来 , 总 数 上 ， 
有 的 报道 说 有 上 千 种 ， 有 的 报道 说 有 三 千 多 种 。 各 种 输入 法 的 专利 到 20 
世纪 90 年 初 已 经 有 上 千 件 ， 以 至 于 一 些 专家 认为 中 国 软件 行业 之 所 以 上 
不 去 ， 是 因为 大 家 都 去 做 输入 法 了 。 所 有 这 些 输 入 法 ， 除 了 少数 对 拼音 输 
入 法 的 改进 ， 大 多 是 利用 26 个 字母 和 10 个 数字 对 汉字 库 ( 当时 一 般 只 
考虑 二 级 国标 汉字 ) 中 6300 个 左右 的 常见 字 直 接 编码 。 大 家 知道 ， 即 使 
只 用 26 个 字母 编码 ， 三 个 键 的 组 合 也 可 以 表示 26* ~ 17000 个 汉字 ， 
此 , 所 有 这 些 编码 方法 都 宣称 自己 能 两 三 个 键 就 输入 一 个 汉字 , 常见 字 两 
个 键 ， 非 常见 字 三 个 键 也 足够 了 。 其 实 这 里 面 没 有 什么 学 问 ， 很 容易 做 
到 。 但 是 ， 这 些 复杂 的 编码 要 让 人 记 住 几 乎 是 不 可 能 的 ， 因 此 这 里 面 的 
艺术 就 是 如 何 将 编码 和 汉字 的 偏旁 、 笔 画 或 者 读音 结合 ， 让 人 记 住 。 当 
然 ， 每 一 种 编码 都 宣称 自己 比 其 他 方法 更 合理 ， 输 入 更 快 。 因 为 这 些 输 
入 法 的 编码 方法 从 信息 论 的 角度 来 看 都 在 同一 个 水 平 ， 互 相 也 比 不 出 什 
么 优 劣 。 但 是 为 了 证 明 自 己 的 方法 比 别人 的 快 ， 大 家 继续 走 偏 ， 单 纯 追 
求 击 键 次 数 少 ， 最 直接 的 方法 就 是 对 词组 进行 编码 ， 但 这 样 一 来 二 使 用 
者 就 更 无 法 记 住 了 ， 只 有 这 些 输入 法 的 表演 者 能 记 住 。 这 已 经 不 是 技术 
的 比赛 ， 而 是 市 场 的 竞争 。 最 后 ， 王 永 民 的 五 笔 输入 法 暂时 胜出 ,得 


188 咱 数学 之 美 


并 不 是 他 的 编码 方法 更 合理 ， 而 是 他 比 其 他 发 明 者 ( 大 多 数 是 书 果 子 ) 
更 会 做 市 场 而 已 。 现 在 ， 即 使 五 笔 输入 法 也 已 经 没有 多 少 市 场 了 ， 这 一 
批发 明 人 可 以 说 是 全 军 覆 没 。 


这 一 代 输 入 法 的 问题 在 于 减少 了 每 个 汉字 击 键 的 次 数 ， 而 忽视 了 找到 每 
个 键 的 时 间 。 要 求 非 专业 使 用 者 背 下 这 些 输入 方法 里 所 有 汉字 的 编码 是 
不 现实 的 ， 这 比 背 6000 个 GRE 单词 还 难 。 因 此 ， 他 们 在 使 用 这 些 输入 
方法 时 都 要 按照 规则 临时 “拆字 ”， 即 找到 一 个 字 的 编码 组 合 ， 这 个 时 
间 不 仅 长 ， 而 且 在 脱 稿 打字 时 严重 中 断 思 维 。 本 书 一 开头 就 强调 语言 和 
文字 作为 通信 的 编码 手段 ， 一 个 重要 目的 是 帮助 思维 和 记忆 。 如 果 一 个 
输入 法 中 断 了 人 们 的 思维 过 程 ， 就 和 人 的 自然 行为 不 相符 合 。 认 知 科学 
已 经 证 明 , 人 一 心 无 二 用 。 过 去 在 研究 语音 识别 时 做 过 很 多 用 户 测试 ， 
发 现 使 用 各 种 复杂 编码 输入 法 的 人 在 脱 稿 打字 时 ， 速 度 只 有 他 在 看 稿 打 
字 时 的 一 半 到 四 分 之 一 。 因 此 ， 虽 然 每 个 字 平 均 项 键 次 数 少 ,但 是 融 键 
盘 的 速度 也 慢 了 很 多 ， 总 的 来 看 并 不 快 。 因 此 ， 广 大 中 国 计 算 机 用 户 对 
这 一 类 输入 法 的 认可 度 极 低 ， 这 是 自然 选择 的 结果 。 


最 终 ， 用户 还 是 选择 了 拼音 输入 法 ， 而 且 是 每 个 单词 编码 较 长 的 全 拼 输 
人 人 法。 虽然 看 上 去 这 种 方法 输入 每 个 汉字 需要 多 融 几 个 字 ， 但 是 有 三 个 
优点 让 它 的 输入 速度 并 不 慢 。 第 一 ， 它 不 需要 专门 学 习 。 第 二 ,输入 自 
然 ， 不 会 中 断 思维 ， 也 就 是 说 找 每 个 键 的 时 间 非 常 短 。 第 三 ， 因 为 编码 
长 ， 有 信息 元 余 量 ,容错 性 好 。 比 如 对 分 不 清 非 前 鼻音 an、en、in 和 
后 鼻音 ang、eng、ing 的 人 来 讲 ， 输 入 zhan ( 占 ) 这 个 字 ， 即 使 他 以 
为 拼音 是 卷 舌 音 zhang， 当 输入 一 半 的 时 候 , 已 经 看 到 自己 要 找 的 字 了 ， 
就 会 停 下 来 ， 避 兔 了 双 拼 的 那 种 不 容错 的 问题 。 当 然 ， 拼 音 输入 法 要 解 
决 的 问题 只 剩 下 排除 一 音 多 字 的 歧义 性 了 ， 只 要 这 个 问题 解决 了 ， 拼音 
输入 法 照样 能 做 到 击 键 次 数 和 那些 拆字 的 方法 差不多 ， 这 也 是 目前 各 种 
拼音 输入 法 做 的 主要 工作 。 接 下 来 我 们 就 分 析 平 均 输 入 一 个 汉字 可 以 做 
到 最 少 几 次 击 键 。 
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2 输入 一 个 汉字 需要 敲 多 少 个 键 一 谈 谈 香 农 第 一 定理 


从 理论 上 分 析 ， 输 入 汉字 到 底 能 有 多 快 ? 这 里 需要 用 到 信息 论 中 的 香农 
第 一 定律 。 


假定 在 国标 GB2312 里 面 ， 一 共有 6 700 多 个 常用 的 汉字 。 如 果 不 考虑 汉 
字 频 率 的 分 布 ， 用 键盘 上 的 26 个 字母 对 汉字 进行 编码 ， 两 个 字母 的 组 合 
只 能 对 676 个 汉字 编码 ， 对 6 700 多 个 汉字 进行 编码 需要 用 三 个 字母 的 
组 合 ， 即 编码 长 度 为 三 。 当 然 ， 聪 明 的 读者 马上 发 现 了 我 们 可 以 对 更 常 
见 的 字 用 较 短 的 编码 ， 对 不 太 常见 的 字 用 较 长 的 编码 ， 这 样 平均 下 来 ， 

每 个 汉字 的 编码 长 度 可 以 缩短 。 假 定 每 一 个 汉字 出 现 的 相对 频率 是 


Pu Pa, Pp3, …,Pezoo (21.1) 
它们 编码 的 长 度 是 

Li, L2La， Le7oo (21.2) 
那么 ， 平 均 编码 长 度 是 

Pi Da 十 pz La2 十 Pa 73 十 … 十 pezoo Lero0 (21.3) 


香农 第 一 定理 指出 : 对 于 一 个 信息 , 任何 编码 的 长 度 都 不 小 于 它 的 信息 粹 。 
因此 ， 上 面 平均 编码 长 度 的 最 小 值 就 是 汉字 的 信息 炉 , 任何 输入 法 不 可 能 
突破 信息 炳 给 定 的 极限 。 这 里 需要 指出 的 是 , 如果 将 输入 法 的 字库 从 国标 
GB2312 扩展 到 更 大 的 字库 GBK， 由 于 后 者 非常 见 字 的 频率 非常 小 , 平 
均 编码 长 度 比 针对 国标 的 大 不 了 多 少 。 因 此 本 书 中 就 以 国标 字库 为 准 。 


现在 让 我 们 来 回忆 一 下 汉字 的 信息 粹 ( 见 第 6 章 “ 信 息 的 度量 和 作用 ”) 
H= -Pi logp1— pz2* 10g pz—*— pero0 log pezoo (21.4) 


如 果 对 每 一 个 字 进 行 统计 ， 而 且 不 考虑 上 下 文 相关 性 ， 大 致 可 以 估算 出 
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它 的 值 在 10 比特 以 内 ， 当 然 这 取决 于 用 什么 语料库 来 做 估计 。 如 果 假 定 
输入 法 只 能 用 26 个 字母 输入 ， 那 么 每 个 字母 可 以 代表 log26 = 4.7 比特 的 
信息 ， 也 就 是 说 ， 输 入 一 个 汉字 平均 需要 项 10 / 4.7 = 2.1 次 键 。 


聪明 的 读者 也 许 已 经 发 现 , 如 果 把 汉字 组 成 词 ,再 以 词 为 单位 统计 信息 炳 ， 
那么 ， 每 个 汉字 的 平均 信息 炉 将 会 减少 。 这 样 ， 平 均 输 入 一 个 字 可 以 少 
蔽 零点 几 次 键盘 。 不 考虑 词 的 上 下 文 相关 性 ， 以 词 为 单位 统计 ， 汉 字 的 
信息 箭 大 约 是 8 比特 左右 ， 也 就 是 说 ， 以 词 为 单位 输入 一 个 汉字 平均 只 
需要 项 8 / 4.7 = 1.7 次 键 。 这 就 是 现在 所 有 输入 法 都 是 基于 词 输入 的 根本 
原因 。 当 然 ， 如 果 再 考虑 上 下 文 的 相关 性 ， 对 汉语 建立 一 个 基于 词 的 统 
计 语 言 模型 ( 见 第 3 章 “ 统 计 语言 模型 ”) ， 可 以 将 每 个 汉字 的 信息 灶 
降 到 6 比特 左右 ， 这 时 ， 输 入 一 个 汉字 只 要 殴 6 / 4.7 = 1.3 次 键 。 如 果 一 
种 输入 方法 能 做 到 这 一 点 ， 那 么 汉字 的 输入 已 经 比 英文 快 得 多 了 。 


但 是 , 事实 上 没有 一 种 输入 方法 接近 这 个 效率 。 这 里 面 有 两 个 主要 原因 。 
首先 ， 要 接近 信息 论 给 的 这 个 极限 ， 就 要 对 汉字 的 词组 根据 其 词 频 进行 
特殊 编码 。 我 们 在 上 一 节 中 讲 到 ,过 于 特殊 的 编码 其 实 欲 速 不 达 。 其 次 ， 
在 个 人 计算 机 上 ， 很 难 安装 非常 大 的 语言 模型 。 因 此 ， 这 种 编码 方法 理 
论 上 讲 有 效 ， 但 不 实用 。 


现在 看 看 全 拼 的 拼音 输入 法 能 够 做 到 输入 一 个 汉字 平均 多 少 次 击 键 。 汉 
语 全 拼 的 平均 长 度 为 2.98， 只 要 基于 拼音 的 输入 法 能 利用 上 下 文 彻底 解 
决 一 音 多 字 的 问题 ,平均 每 个 汉字 输入 的 敲 键 次 数 应 该 在 三 次 以 内 ， 每 
分 钟 输入 100 个 字 完 全 有 可 能 达到 。 如 果 能 够 更 多 地 利用 上 下 文 相关 性 ， 
可 以 做 到 当 句 子 中 一 个 汉字 的 拼音 项 完 一 部 分 的 时 候 ， 这 个 汉字 就 被 担 
示 出 来 ， 因 此， 全 拼 输 入 法 的 平均 击 键 次 数 应 该 小 于 3。 


因此 ， 接 下 来 的 任务 就 是 如 何 利 用 上 下 文 了 。10 年 前 的 拼音 输 大 法 【以 
紫光 为 代表 ) 解决 这 个 问题 的 办 法 是 建立 大 词 库 ， 词 也 越 来 越 多 ， 越 来 
越 长 , 最 后 把 整 句 唐诗 都 作为 一 个 词 。 这 个 办 法 多 少 能 解决 一 些 问 题 ; 
但 如 果 统 计 一 下 就 会 发 现 帮助 并 不 大 。 因 为 在 汉语 中 ,虽然 长 词 的 数量 
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可 以 非常 多 ， 多 到 几 十 万 ,但 是 一 字 词 和 二 字 词 占 文本 的 大 多 数 。 而 一 
字 词 和 二 字 词 恰恰 是 一 音 多 字 情 况 最 严重 的 ， 比 如 “zhi” 有 275 个 (以 
Google 拼音 输入 法 统计 ) ， 二 字 词 “shi-yan” 有 14 个 。 这 些 不 是 简单 增 
加 词典 大 小 能 解决 的 。 增 大 词典 ,多 少 是 根据 经 验 和 直觉 自发 的 行为 , 这 
就 和 地 心 说 在 无 法 解释 行星 不 规律 运动 轨迹 时 ， 用 大 圆 套 了 几 个 小 圆 的 
方法 次 出 了 结果 一 样 。 为 了 解决 这 些 问题 ， 接 下 来 很 多 输入 法 ， 包 括 目 
前 一 些 很 流行 的 输入 法 ,把 常见 的 词组 和 词 的 组 合 ( 比如 “我 是 ” ) 放 到 
词典 中 去 。 但 是 汉语 有 四 五 万 常用 的 一 字 词 和 二 字 词 ， 这 些 词 的 合理 组 
合 是 上 千 万 乃至 上 亿 ， 总 不 能 都 放 到 词典 中 吧 。 因 此 枚 举 词 的 组 合 的 做 
法 ， 如 同 在 小 贺 上 再 套 一 些 更 小 的 圆 ， 其 结果 可 能 距离 真理 更 近 ， 但 
依然 不 是 真理 。 


而 利用 上 下 文 最 好 的 办 法 是 借助 语言 模型 。 只 要 承认 概率 论 ， 就 无 法 否 
认 语 言 模型 可 以 保证 拼音 转 汉字 ( 解决 一 音 多 字 问 题 ) 的 效果 最 好 。 假 
定 有 大 小 不 受 限制 的 语言 模型 ， 是 可 以 达到 信息 论 给 出 的 极限 输入 速度 
的 。 但 是 在 产品 中 ， 不 可 能 占用 用 户 太 多 的 内 存 空 间 ， 因 此 各 种 输入 法 
只 能 提供 给 用 户 一 个 压缩 得 很 厉害 的 语音 模型 。 而 有 的 输入 法 为 了 减 小 
内 存 占用 ,或 者 没有 完全 掌握 拼音 转 汉字 的 解码 技巧 ， 根 本 就 没有 语言 
模型 。 这 样 一 来 ， 当 今 的 输入 法 和 极限 输入 速度 相 比 还 有 不 少 可 提升 的 
空间 。 目 前 ,各 家 拼音 输入 法 ( Google 的 、 腾 讯 的 和 搜狗 的 ) 基本 处 在 
同一 个 量 级 ， 将 来 技术 上 进一步 提升 的 关键 就 在 于 看 谁 能 准确 而 有 效 地 
建立 语言 模型 。 当 然 利 用 语言 模型 将 拼音 串 自 动 转 成 汉字 ， 要 有 合适 的 
算法 ， 这 就 是 下 一 节 要 讨论 的 问题 。 


3 拼音 转 汉字 的 算法 


拼音 转 汉 字 的 算法 和 在 导航 中 寻找 最 短路 径 的 算法 相同 , 都 是 动态 规划 。 
这 听 起 来 多 少 有 点 牵强 ， 拼 音 输入 法 和 导航 又 有 什么 关系 呢 ? 


其 实 可 以 将 汉语 输入 看 成 一 个 通信 问题 ， 而 输入 法 则 是 一 个 将 拼音 串 变 
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到 汉字 串 的 转换 器 。 每 一 个 拼音 可 以 对 应 多 个 汉字 ， 把 一 个 拼音 串 对 应 
的 汉字 从 左 到 右 连 起 来 ， 就 是 一 张 有 向 图 ， 它 被 称 为 网 格 图 或 者 篇 钨 图 
(Lattice ) ， 形 式 如 下 : 


图 21.1 拼音 到 汉字 转换 解码 的 网 格 图 


其 中 ，y1,y2,y3,…,yn 是 使 用 者 输入 的 拼音 串 ; wu,wiz,wis 是 第 一 个 音 六 
的 候选 汉字 (我 们 在 后 面 的 公式 中 用 变量 wi 代表 这 三 个 候选 汉字 ); 
Wav Wzz,Wz3,Was 是 对 应 于 六 的 候选 汉字 ， 以 变量 wz 统一 代表 ， 以 此 类 推 。 
从 第 一 个 字 到 最 后 一 个 字 可 以 组 成 很 多 很 多 句子 ， 每 一 个 句子 和 图 中 的 
一 条 路 径 一 一 对 应 。 拼 音 输入 法 就 是 要 根据 上 下 文 在 给 定 拼 音 条 件 下 找 
到 一 个 最 优 的 句子 ， 即 


Wi WayWN = ArgMax P (wy, was, Wnly1 Ya, Yn) (21.5) 
wi 


对 应 到 上 图 中 ， 就 是 要 找 从 起 点 到 终点 的 一 条 最 短路 径 。 而 要 寻找 最 短 
路 径 ， 首 先 要 定义 图 中 两 个 节点 之 间 的 距离 。 回 顾 我 们 在 “ 隐 含 马尔 可 
夫 模 型 ”一 章 中 介绍 上 面 公式 的 简化 方法 ， 


Wi W2 mWN 


本 ArgMaxPOuyz， wb wa Ww) * P(wi, Wa ww) 
we 


Nn 
~ ArgMax[ [PCwilwi-1) * POilwi) (21.6) 
wew 


i=1 
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如 果 对 上 面 公式 中 的 概率 取 对 数 同 时 取 反 ， 即 定义 d(w-uwD = 
一 logP(wilwi-1) "POiwi) ， 上 面 的 连 乘 关 系 变 成 加 法 ， 寻 找 最 大 概率 的 
问题 就 变 成 了 寻找 最 短路 径 的 问题 。 这 样 就 可 以 直接 利用 动态 规划 算法 
实现 拼音 输入 法 中 最 重要 的 拼音 到 汉字 的 转换 问题 。 对 比 在 卫星 导航 中 
寻找 两 个 地 点 之 间 的 最 短 距 离 ， 我 们 发 现 它们 可 以 完全 对 应 起 来 。 唯 一 
的 差别 就 是 在 导航 图 中 ， 节 点 ( 城市 ) 之 间 是 真实 的 距离 ， 而 在 拼音 串 
转 为 汉字 的 网 格 图 中 ， 两 个 节点 ( 词 ) w-: 和 wi 之 间 的 距离 是 转移 概率 
和 生成 概率 的 乘积 一 logP (wilwi-1) * PCytIwi)。 


这 个 拼音 输入 法 的 例子 和 前 面 第 12 章 “ 地 图 和 本 地 搜索 的 最 基本 技术 
一 有 限 状态 机 和 动态 规划 ”中 提 到 的 导航 系统 看 似 没 什么 关系 ， 但 是 其 
背后 的 数学 模型 却 完全 一 样 。 数 学 的 妙 处 在 于 它 的 每 一 个 工具 都 具有 相 
当 的 普遍 性 ， 在 不 同 的 应 用 中 都 可 以 发 挥 很 大 的 作用 。 


4 ”延伸 阅读 : 个 性 化 的 语言 模型 


读者 知识 背景 : 概率 论 。 


现 有 的 汉字 拼音 输入 法 距离 信息 论 给 的 极限 还 有 很 大 的 差距 ， 可 提升 的 
空间 很 大 ， 会 有 越 来 越 好 用 的 输入 方法 不 断 涌 现 。 当 然 ， 速 度 只 是 输入 
法 的 一 个 而 不 是 唯一 的 衡量 标准 一 当 输入 速度 超过 一 定 阔 值 后 ， 用 户 
的 体验 可 能 更 重要 。 


从 理论 上 讲 ， 只 要 语言 模型 足够 大 ， 拼 音 输入 法 的 平均 击 键 次 数 就 可 以 
接近 信息 论 给 的 极限 值 。 如 果 把 输入 法 放 在 云 计算 上 ， 这 是 完全 可 以 实 
现 的 ， 而 在 客户 端 上 〈 比如 个 人 电脑 上 ) 这 样 做 不 现实 。 好 在 客户 端 有 
客户 端的 优势 ， 可 以 建立 个 性 化 的 语言 模型 。 


个 性 化 的 出 发 点 是 不 同人 平时 写 的 东西 主题 不 同 , 由 于 文化 程度 的 差异 ， 
用 的 词 也 不 同 ， 说 话 和 写作 的 水 平 也 不 同 ， 因 此 ， 他 们 各 自 应 该 有 各 自 
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的 语言 模型 。 


我 们 在 Google 统计 发 现 ， 这 个 假设 是 对 的 ， 且 不 说 表达 主题 意义 的 实 词 
会 因 人 而 异 ， 就 是 不 同 的 地 方 、 不 同 的 文化 背景 和 受 教育 程度 的 人 使 用 
的 虚词 都 有 明显 的 不 同 。 因 此 ， 如 果 每 个 人 有 各 自 的 语言 模型 ， 用 拼音 
输入 时 ， 候 选 词 次 序 的 排列 一 定 比 通用 的 输入 法 排 得 好 。 


接 下 来 有 两 个 问题 需要 解决 。 首 先是 如 何 训练 一 个 个 性 化 的 语言 模型 ， 
其 次 是 处 理 好 它 和 通用 语言 模型 的 关系 。 


为 每 个 人 训练 一 个 特定 的 语言 模型 ， 最 好 是 收集 足够 多 这 个 人 自己 写 的 
文字 ,但 是 一 个 人 一 辈子 写 的 东西 不 足以 训练 一 个 语言 模型 。 训 练 一 个 
词汇 量 在 几 万 的 二 元 模型 ， 需 要 几 千 万 词 的 语 料 ， 即 使 是 职业 作家 或 者 
记者 ， 一 辈子 都 不 可 能 写 这 么 多 的 文章 。 没 有 足够 多 的 训练 数据 ， 训 练 
出 的 (高 阶 ) 语言 模型 基本 上 没有 用 。 当 然 训 练 一 个 一 元 模型 不 需要 太 
多 数据 ， 一 些 输入 法 ( 自发 地 ) 找到 了 一 种 经 验 做 法 : 用 户 词典 ， 这 实 
际 上 是 一 个 小 规模 的 一 元 模型 加 上 非常 小 量 的 N 元 组 ( 比如 一 个 用 户 定 
义 的 词 ABC， 实 际 是 一 个 三 元 组 ) 。 


更 好 的 办 法 是 找到 大 量 符合 用 户 经 常 输入 的 内 容 和 用 语 习惯 的 语 料 ， 训 
练 一 个 用 户 特定 的 语言 模型 。 这 里 面 的 关键 显然 是 如 何 找到 这 些 符合 条 
件 的 语 料 。 这 次 又 要 用 到 余弦 定理 和 文本 分 类 的 技术 了 。 整 个 训练 用 户 
特定 的 语言 模型 步骤 如 下 : 


1， 可 以 将 训练 语言 模型 的 文本 按照 主题 分 成 很 多 不 同 的 类 别 ， 比 
如 1000 个 ，Cu Cz，…,Caooo 。 


2， 对 于 每 个 类 ， 找 到 它们 的 特征 向 量 (TF-IDF》X,Xz,X3,.…， 
Xiaooo。 这 两 条 我 们 在 以 前 都 讲 过 。 


3， 统 计 某 个 人 输入 的 文本 ， 得 到 他 输入 的 词 的 特征 向 量 Y。 
4 计算 Y 和 Xi,Xz,… ,Xiooo 的 余弦 ( 距离 ) 。 
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5， 选 择 前 K 个 和 Y 距离 最 近 的 类 对 应 的 文本 ,作为 这 个 特定 用 户 语 
言 模型 的 训练 数据 。 


6， 训练 一 个 用 户 特定 的 语言 模型 M, 。 


在 大 部 分 情况 下 ，M, 对 这 个 特定 用 户 的 输入 比 通用 模型 Mo 好 。 但 是 对 于 
相对 偏僻 的 内 容 ，M; 的 效果 就 远 不 如 通用 的 模型 M。 了 ， 因 为 M, 的 训练 数 
据 比 Mo 的 小 一 两 个 数量 级 ,覆盖 的 语言 现象 少 得 多 。 因 此 ， 一 个 更 好 的 
办 法 就 是 综合 这 两 个 模型 。 


我 们 在 最 大 炳 模型 中 介绍 过 ， 把 各 种 特征 综合 在 一 起 最 好 的 方法 是 采用 
最 大 箭 模型 。 当 然 ， 这 个 模型 比较 复杂 ， 训 练 时 间 较 长 ， 如 果 为 每 一 个 
人 都 建立 这 样 一 个 模型 ， 成 本 较 高 。 因 此 可 以 采用 一 个 简化 的 模型 : 线 
性 插值 的 模型 。 


假定 Me 和 AM: 都 是 二 元 模型 ， 它 们 计算 出 的 (w-vwb 的 条 件 概率 分 别 是 
Polwilwi-1) 和 Pi(wilwi-1) 。 新 的 模型 为 M'， 计算 的 条 件 概率 应 该 是 


P'(wilwi-s) = Nwi-1) * Po(wilwi-s) + (1 — ACwi-1)) * Pi (wilwi-1) 


其 中 ,0 < 4(wi-1) < 1 是 一 个 插值 参数 。 由 于 信息 炉 ( 对 应 语言 模型 的 复 
杂 度 ) 是 一 个 凸 函数 '， 线 性 组 合 P' 的 炉 比 Po 和 P 炳 的 线性 组 合 小 ， 因 此 
新 的 组 合 模型 不 确定 性 少 ， 是 更 好 的 模型 。 也 就 是 说 ， 将 个 性 化 模型 和 
原来 的 通用 模型 组 合 ， 得 到 的 新 模型 更 好 。 


这 种 线性 插值 的 模型 比 最 大 炳 模型 效果 略 差 ,但 是 能 得 到 大 约 80% 的 收 
益 。 ( 如 果 最 大 炉 模 型 比 原来 的 通用 模型 的 改进 收益 是 100% 的 话 。 ) 顺 
便 说 一 句 ，Google 拼音 的 个 性 化 语言 模型 就 是 这 么 实现 的 。 


1 

白 函 数 的 定义 :如 
果 一 个 函数 /， 满 
足 杀 件 F(txi + (1 
一 bxaz) < to)+ 
(1—t)f(xz), Wh 么 
这 个 函数 称 为 凸 函 
数 。 
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5 小 结 


汉字 的 输入 过 程 本 身 就 是 人 和 计算 机 的 通信 ， 好 的 输入 法 会 自觉 或 者 不 


自觉 地 遵循 通信 的 数学 模型 。 当 然 要 做 出 最 有 效 的 输入 法 ， 应 当 自觉 使 
用 信息 论 做 指导 。 


第 22 章 自然 语言 处 理 的 教父 马 库 斯 
和 他 的 优秀 弟子 们 


1 教父 马 库 斯 


图 22.1 马 库 斯 


将 自然 语言 处 理 从 基于 规则 的 研究 方法 转 到 基于 统计 的 研究 方法 上 ， 贡 
献 最 大 的 有 两 个 人 ， 一 个 是 我 们 前 面 介绍 过 的 页 里 尼克 ， 他 是 一 位 开创 
性 人 物 , 另 一 个 是 将 这 个 研究 方法 进一步 发 扬 光 大 的 米奇 ' 马 库 斯 ( Mitch 
Marcus ) 。 和 贾 里 尼克 不 同 ， 马 库 斯 对 这 个 领域 的 贡献 不 是 直接 的 发 
明 ， 而 是 通过 他 造福 于 全 世界 研究 者 的 宾夕法尼亚 大 学 LDC 语料库 以 及 
他 的 众多 优秀 弟子 。 这 些 优 秀 弟子 ， 包 括 我 前 面 章节 中 介绍 的 一 大 批 年 
轻 有 为 的 科学 家 ,迈克尔 * 柯林斯 ( Michael Collins ) ， 艾 里 克 “' 布莱尔 
(Eric Brill ) ， 大 卫 … 雅 让 斯 基 ( David Yarowsky ) ， 拉 纳 帕 提 (Adwait 
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1 

因为 宾夕法尼亚 大 
学 又 简称 UPenn， 
或 者 Penn， 这 个 由 
该 大 学 领头 建立 的 
数据 库 便 被 命名 为 
Penn Tree Bank。 
Tree Bank 直接 的 意 
思 是 ( 语法 ) 树 的 
银行 ， 语意 大 量 的 
语法 树 。 


Ratnaparkhi ) ,以 及 很 多 在 麻 省 理工 学 院 和 约 输 * 霍 普 金 斯 大 学 等 世 
界 一 流 大 学 和 IBM 等 公司 的 研究 所 担任 终身 教 职 和 研究 员 的 科学 家 。 就 
像 许多 武侠 小 说 中 描写 的 ， 弟 子 都 成 了 各 派 的 掌 门 ， 师 傅 一 定 了 不 得 。 

的 确 , 马 库 斯 虽然 作为 第 一 作者 发 表 的 论文 并 不 多 , 但 是 从 很 多 角度 上 讲 ， 
他 可 以 说 是 自然 语言 处 理 领域 的 教父 。 


和 贾 里 尼克 一 样 ， 马 库 斯 也 毕业 于 麻 省 理工 学 院 ， 同 样 ， 他 也 经 历 了 从 
工业 界 (AT&T 贝尔 实验 室 ) 到 学 术 界 (宾夕法尼亚 大 学 ) 的 转移 。 刚 
到 宾夕法尼亚 大 学 时 ， 马 库 斯 在 利用 统计 的 方法 进行 句子 分 析 上 做 出 了 
不 少 成 绩 。 而 这 方面 恰恰 是 贾 里 尼克 和 IBM 的 科学 家 没有 做 过 的 。 在 马 
库 斯 以 前 ， 基 于 统计 的 自然 语言 处 理 为 语言 学 术 界 所 诉 病 的 一 个 原因 是 
统计 的 方法 很 难 进行 “深入 的 ”分 析 ， 马 库 斯 的 工作 证 明 统计 的 方法 比 
规则 的 方法 更 适合 对 自然 语言 做 深入 的 分 析 。 但 是 ， 随 着 工作 的 深入 以 
及 研究 结果 的 不 断 进 步 ， 马 库 斯 发 现 两 大 问题 : 首先 ， 可 以 用 于 研究 的 
统计 数据 明显 不 够 ; 其 次 ， 各 国 科 学 家 因为 使 用 的 数据 不 同 ， 论 文 里 发 
表 的 结果 无 法 互相 比较 。 


马 库 斯 比 很 多 同行 更 早 地 发 现 建立 标准 语料库 在 自然 语言 处 理 研究 中 的 
重要 性 。 于 是 , 马 库 斯 利用 自己 的 影响 力 , 让 美国 自然 科学 基金 会 ( National 
Science Foundation， 简 称 NSF ) 和 DARPA 出 资 立项 ， 联 络 了 多 所 大 
学 和 研究 机 构 ， 建 立 了 数 百 个 标准 的 语料库 组 织 (Linguistic Data 
Consortium， 简 称 LDC ) 。 其 中 最 著名 的 语料库 是 Penn Tree Bank'。 
Penn Tree Bank 起 初 是 收集 了 一 些 真 实 的 书面 英语 (《 华尔街 日 报 》) 语 句 ， 
人 工 进行 词性 标注 和 语法 树 构建 等 ， 作 为 全 世界 自然 语言 处 理学 者 研究 
和 实验 的 统一 语料库 。 后 来 ， 由 于 它 被 全 世界 认可 ， 美 国 自然 科学 基金 
会 不 断 追加 投入 ， 建 立 起 了 覆盖 多 种 语言 (包括 中 文 ) 的 语料库 。 对 每 
一 种 语言 ， 它 有 几 十 万 到 几 百 万 字 的 有 代表 性 的 句子 , 每 个 句子 都 有 词 
性 标注 、 语 法 分 析 树 等 。LDC 后 来 又 建立 了 语音 、 机 器 翻译 等 很 多 数据 库 ， 
为 全 世界 自然 语言 处 理科 学 家 共享 。 如 今 , 在 自然 语言 处 理 方面 发 表 论文 ， 
几乎 都 要 提供 基于 LDC 语料库 的 测试 结果 。 
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在 过 去 20 年 机 器 学 习 和 自然 语言 处 理 领域 ，80% 的 成 果 来 自 于 数据 量 的 
增加 。 马 库 斯 对 这 些 领 域 数据 的 贡献 可 以 说 是 独一无二 的 。 当 然 ， 凭 借 
对 数据 的 贡献 ， 还 不 足以 让 马 库 斯 获得 教父 的 地 位 。 马 库 斯 有 点 像 日 本 
围棋 领域 的 木 谷 实 *， 他 的 影响 力 很 大 程度 上 是 靠 他 的 弟子 传播 出 去 的 。 


给 予 他 的 博士 生 研究 自己 感 兴趣 的 课题 的 自由 ， 这 是 他 之 所 以 桃李 满 天 
下 的 原因 。 马 库 斯 的 博士 生 研 究 的 题目 牙 盖 了 自然 语言 处 理 的 很 多 领域 ， 
而 且 题 目 之 间 几 乎 没有 相关 性 ， 因 为 这 些 题目 大 多 是 博士 生 自 己 找 的 , 而 
不 是 马 库 斯 指定 的 。 他 的 做 法 和 中 国 大 部 分 博士 生 导 师 完全 不 同 。 马 库 
斯 对 几乎 所 有 的 自然 语言 处 理 领 域 都 有 独到 的 见解 ， 马 库 斯 让 博士 生 提 
出 自己 有 兴趣 的 课题 ， 或 者 用 他 已 有 的 经 费 支持 学 生 ， 或 者 去 为 他 们 的 
项 目 申请 经 费 。 马 库 斯 高 屋 建 领 ， 能 够 很 快 地 判断 一 个 研究 方向 是 否 正 
确 ， 省 去 了 博士 生 很 多 做 无 谓 尝试 (Try-And-Error ) 的 时 间 。 因 此 他 
的 博士 毕业 生 质 量 非常 高 ， 而 且 有 些 很 快 就 拿 到 了 博士 学 位 。 


由 于 马 库 斯 宽松 的 管理 方式 ， 他 培养 的 博士 生 在 研究 和 生活 上 都 是 个 性 
迪 异 。 有 些 人 善于 找到 间接 快速 的 方法 和 容易 做 出 成 绩 的 题目 ， 有 的 人 
习惯 哺 硬 骨头 ; 有 些 人 三 四 年 就 拿 到 博士 去 当 教 授 了 , 而 有 些 人 “ 赖 在 ” 
学 校 里 七 八 年 不 走 ， 最 后 出 一 篇 高 质量 的 博士 论文 。 这 些 各 有 特点 的 年 
轻 学 者 ， 后 来 分 别 能 适应 文化 近 异 的 各 个 大 学 和 公司 。 


马 库 斯 教授 长 期 担任 宾夕法尼亚 大 学 计算 机 系 主任 ， 直 到 2002 年 从 
AT&T 实验 室 找到 费尔南多 . 皮 耶 尔 替 代 他 为 止 。 作 为 一 个 管理 者 ， 马 
库 斯 在 专业 设置 方面 显示 出 远见 卓识 ， 马 库 斯 将 宾夕法尼亚 大 学 规模 很 
小 的 计算 机 系 发 展 成 在 学 术 界 具有 盛名 和 影响 力 的 强 系 。 在 世界 各 种 大 
学 研究 生 院 的 排名 中 , 一 般 来 讲 , 规模 大 的 院 系 比 规模 小 的 要 占 不 少 便宜 ， 
因为 前 者 学 科 齐全 。 马 库 斯 的 风格 是 把 一 个 系 变 强 而 不 是 变 大 。 马 库 斯 
在 几 年 前 互联 网 很 热门 、 很 多 大 学 开始 进行 互联 网 研究 时 ， 看 到 生物 信 
息 学 ( Bioinformatics ) 的 重要 性 ， 在 宾夕法尼亚 大 学 设立 这 个 专业 ， 并 
且 在 其 他 大 学 还 没有 意识 到 时 ， 开 始 招聘 这 方面 的 教授 。 马 库 斯 还 建议 


2 
日 本 著名 的 围棋 教 
育 家 ， 他 的 弟子 石 
田 方 夫 、 加 芯 正 
夫 、 武 宫 正 树 、 小 
林 光 一 和 赵治勋 在 
1970-2000 年 统治 
日 本 棋 坛 30 年 。 
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一 些 相关 领域 的 教授 ， 包 括 后 来 的 系 主任 皮 耶 尔 把 一 部 分 精力 转 到 生物 
信息 学 方面 。 等 到 网 络 泡沫 破裂 以 后 ， 很 多 大 学 的 计算 机 系 开始 向 生物 
信息 学 转向 ， 但 是 发 现 已 经 很 难 找到 这 个 领域 好 的 教授 了 。 


我 有 幸 和 他 同 在 约翰 ' 霍 普 金 斯 大 学 计算 机 系 的 顾问 委员 会 任职 多 年 ,每 
年 有 两 次 在 一 起 讨论 计算 机 系 的 研究 方向 。 和 宾夕法尼亚 大 学 类 似 ， 约 
输 . 霍 普 金 斯 大 学 的 计算 机 系 也 很 小 ， 发 展 也 面临 同样 的 问题 。 马 库 斯 
的 主张 一 贯 是 建立 几 个 世界 上 最 好 的 专业 ， 而 不 是 专业 最 齐全 的 系 。 我 
觉得 ， 当 今 中 国 的 大 学 ， 最 需要 的 就 是 马 库 斯 这 样 卓 有 远 见 的 管理 者 。 


2 ”从 宾夕法尼亚 大 学 走出 的 精英 们 


当今 自然 语言 处 理 领 域 年 轻 一 代 的 世界 级 专家 ， 相 当 大 一 部 分 来 自 宾 夕 
法 尼 亚 大 学 马 库 斯 的 实验 室 。 他 们 为 人 做 事 风 格 过 异 ， 共 同 的 特点 是 年 
轻 有 为 。 这 里 介绍 其 中 两 人 人， 迈克尔 柯林斯 和 艾 里 克 布莱尔 ， 因 为 
他 们 代表 两 种 截然 不 同 的 风格 。 


2.1 柯林斯 : 追求 完美 


我 在 “数学 之 美 ”系列 中 一 直 强调 一 个 好 方法 在 形式 上 应 该 是 简单 的 。 
但 是 ， 事实 上 ， 自 然 语 言 处 理 中 也 有 一 些 特例 ， 比 如 有 些 学 者 将 一 个 问 
题 研究 到 极致 ， 执 著 追求 完善 甚至 可 以 说 达到 完美 的 程度 。 他 们 的 工作 
对 同行 有 很 大 的 参考 价值 ， 因 此 在 科研 中 很 需要 这 样 的 学 者 。 在 自然 语 
言 处 理 方面 新 一 代 的 顶级 人 物 迈 克 尔 . 柯林斯 就 是 这 样 的 人 。 


柯林斯 1993 年 从 剑桥 大 学 硕士 毕业 后 , 师 从 自然 语言 处 理 大 师 马 库 斯 ， 
用 五 年 多 时 间 完 成 了 博士 论文 ， 从 宾夕法尼亚 大 学 获得 博士 学 位 。 在 他 
的 师兄 弟 中 ， 他 比 用 三 年 拿 到 博士 学 位 的 雅 让 斯 基 要 长 很 多 , 但 是 比 赖 
在 学 校 不 走 的 恩 斯 勒 (Jason Eisner ) 要 快 不 少 。 但 无 论 是 比 他 花 的 时 间 
长 的 ， 还 是 短 的， 论文 做 得 都 没有 柯林斯 好 。 
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在 做 博士 期 间 ， 柯 林 斯 写 了 一 个 后 来 以 他 名 字 命名 的 自然 语言 文法 分 析 
器 ( Sentence Parser ) ， 可 以 对 书面 语 的 每 一 句 话 进行 准确 的 文法 分 析 。 
前 面 提 到 ， 文 法 分 析 被 认为 是 很 多 自然 语言 应 用 的 基础 。 柯 林 斯 的 师兄 
布莱尔 和 拉 纳 帕 提 以 及 师弟 恩 斯 勒 都 完成 了 相当 不 错 的 语言 文法 分 析 器 ， 
照 理 讲 ， 柯 林 斯 不 应 该 再 选择 这 个 课题 了 ， 因 为 很 难 出 成 果 。 但 柯林斯 
却 是 一 个 要 把 技术 潜力 挖掘 到 极致 的 人 ， 他 在 这 方面 的 追求 很 像 乔 布 斯 
在 产品 上 的 追求 。 他 的 师兄 弟 选择 这 个 题目 都 是 为 了 验证 自己 的 理论 : 
布莱尔 是 为 了 证 明 他 的 “基于 变换 ”的 机 器 学 习 方法 的 有 效 性 ， 拉 纳 帕 
提 是 为 了 证 明 最 大 炉 模 型 ， 恩 斯 勒 是 为 了 证 明 有 限 状 态 机 。 柯 林 斯 和 他 
的 师兄 弟 不 同 ， 他 做 文法 分 析 器 的 出 发 点 不 是 为 了 验证 一 个 理论 ， 而 是 
要 做 一 个 世界 上 最 好 的 分 析 器 。 


在 这 样 的 思想 指导 下 ， 柯 林 斯 做 出 了 在 相当 长 一 段 时 间 内 世界 上 最 好 的 
文法 分 析 器 。 柯 林 斯 成 功 的 关键 在 于 将 文法 分 析 的 每 一 个 细节 都 研究 得 
很 仔细 。 柯 林 斯 用 的 数学 模型 也 很 漂亮 , 整个 工作 可 以 用 完美 来 形容 。 
我 曾 因为 研究 的 需要 ， 找 柯林斯 要 过 他 文法 分 析 器 的 源 程序 ， 他 很 爽快 
地 给 了 我 。 我 试图 将 他 的 程序 修改 一 下 来 满足 我 特定 应 用 的 要 求 ， 但 后 
来 发 现 ， 他 的 程序 细节 太 多 ， 以 至 于 很 难 进一步 优化 。 柯 林 斯 不 是 成 功 
做 出 文法 分 析 器 的 第 一 人 ， 甚 至 不 是 第 二 、 第 三 人 。 但 是 从 某 种 程度 上 
讲 可 能 是 最 后 一 人 ， 在 过 去 的 七 八 年 里 ， 他 还 在 这 个 领域 不 断 改进 ， 不 
断 突破 ， 大 有 其 他 科学 家 从 此 不 必 再 做 文法 分 析 器 的 架势 ! 


柯林斯 的 博士 论文 堪 称 自然 语言 处 理 领 域 的 范文 。 它 像 一 本 优秀 的 小 说 ， 
把 所 有 事情 的 来 龙 去 脉 介绍 得 清 清楚 楚 ， 任 何 有 一 点 计算 机 和 自然 语言 
处 理 知识 的 人 ， 都 可 以 轻而易举 读 懂 他 复杂 的 方法 。 


柯林斯 毕业 后 ， 在 AT&T 实验 室 度 过 了 三 年 快乐 的 时 光 。 在 那里 柯林斯 
完成 了 许多 世界 一 流 的 研究 工作 ， 诸 如 隐 含 马尔 可 夫 模 型 的 区 别 性 训练 
方法 ， 卷 积 核 在 自然 语言 处 理 中 的 应 用 ， 等 等 。 三 年 后 ，AT&T 停止 了 
自然 语言 处 理 方面 的 研究 ,柯林斯 幸运 地 在 麻 省 理工 学 院 找到 教 职 。 在 
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花旗 银行 的 CEO。 


欧美 一 些 大 学 设 有 
以 私人 或 者 机 构 命 
名 的 教 席 授予 
著名 的 教授 。 比 
如 剑桥 大 学 著名 的 
卢 卡 斯 数学 教 席 
《Lucasian Mathe- 
matics Professor ) 
曾经 授予 牛顿 、 狄 
拉克 等 著名 科学 家 ， 
当代 著名 物理 学 家 
举人 金 也 曾 担任 此 教 
席 。 


麻 省 理工 学 院 的 短 短 七 年 间 ， 柯 林 斯 三 次 获得 EMNLP 最 佳 论文 奖 ， 两 
次 获得 UAI 最 佳 论文 奖 和 一 次 CoNLL 最 佳 论文 奖 。 一 般 一 个 一 流 的 科 
学 家 ， 一生 也 就 获得 两 三 次 最 佳 论 文 奖 ,而 柯林斯 把 获奖 当成 了 家 常 便 
饭 ! 相 比 其 他 同行 ， 这 种 成 就 是 世界 上 独一无二 的 。 柯 林 斯 的 特点 就 是 
把 事情 做 到 极致 。 如 果 说 有 人 喜欢 “繁琐 哲学 ”， 柯 林 斯 就 是 一 个 。 


柯林斯 在 麻 省 理工 学 院 获得 了 终身 教 职 后 ，2011 年 被 哥伦比亚 大 学 以 潘 
迪 特 (Vikram Pandit ) ， 教 席 的 教授 职位 * 挖 走 。 


2.2 布莱尔 : 简单 才 美 


在 研究 方法 上 , 站 在 柯林斯 对 立 面 的 典型 是 他 的 师兄 艾 里 克 ' 布莱尔 、 
拉 纳 帕 提 和 雅 让 斯 基 等 , 后 面 两 人 在 前 面 章节 中 已 经 介绍 过 了 。 与 柯林斯 
从 工业 界 到 学 术 界 相反 ， 布 莱 尔 的 职业 路 径 是 从 学 术 界 走 到 工业 界 。 前 
者 在 学 术 界 换 了 大 学 ， 后 者 到 了 工业 界 后 也 换 过 公司 。 与 柯林斯 的 研究 
方法 相反 , 布莱尔 总 是 试图 寻找 简单 得 不 能 再 简单 的 方法 。 但 相同 的 是 ， 
二 人 的 职位 都 越 做 越 高 。 布 莱 尔 的 成 名 作 是 基于 变换 规则 的 机 器 学 习 方 
法 (Transformation Rule Based Machine Learning ) 。 这 个 方法 名 称 虽 
然 很 复杂 ， 其 实 非常 简单 。 以 拼音 转 汉字 为 例 来 说 明 它 : 


第 一 步 ， 把 每 个 拼音 对 应 的 汉字 中 最 常见 的 找 出 来 作为 第 一 遍 变 换 的 结 
果 ， 当 然 结 果 有 不 少 错误 。 比 如 ，“ 常 识 ” 可 能 被 转换 成 “长 识 ”; 


第 二 步 ， 可 以 说 是 “去 伪 存 真 ”， 用 计算 机 根据 上 下 文 ， 列 举 所 有 的 同 
音字 替换 的 规则 ， 比 如 ， 如 果 chang 被 标识 成 “长 ”， 但 是 后 面 的 汉字 
是 “ 识 ”， 则 将 “长 ” 改 成 “ 常 ”; 


第 三 步 ,应 该 就 是 “去 粗 取 精 ”, 将 所 有 的 规则 应 用 到 事先 标识 好 的 语 料 中 ， 
挑 出 有 用 的 ， 删 掉 无 用 的 。 然 后 重复 二 三 步 ， 直 到 找 不 出 有 用 的 为 止 。 


布莱尔 就 靠 这 么 简单 的 方法 ， 在 很 多 自然 语言 研究 领域 ! 取得 了 几乎 最 
好 的 结果 。 由 于 他 的 方法 再 简单 不 过 了 ， 许 许多 多 的 人 都 跟着 学 。 布 莱 
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尔 可 以 算是 我 在 美国 的 第 一 个 业 师 ， 我 们 俩 就 用 这 么 简单 的 方法 作词 
性 标注 ( Part of Speech Tagging ) ， 也 就 是 把 句子 中 的 词 标 成 名 词 动 
词 ， 很 多 年 内 无 人 能 超越 。 ( 最 后 超越 我 们 的 是 后 来 加 入 Google 的 一 
名 荷兰 工程 师 ， 用 的 是 同样 的 方法 ， 但 是 做 得 细致 很 多 。 ) 布莱尔 离开 
学 术 界 后 去 了 微软 研究 院 。 在 那里 的 第 一 年 ， 他 一 人 一 年 完成 的 工作 比 
组 里 其 他 所 有 人 许多 年 做 的 工作 的 总 和 还 多 。 后 来 ,布莱尔 又 加 入 了 一 
个 新 组 ， 依 然 是 高 产科 学 家 。 据 说 ， 他 的 工作 真正 被 微软 重视 要 感谢 
Google, 因为 有 了 Google, 微软 才 对 他 从 人 力 物力 上 给 予 了 巨大 的 支持 ， 
使 得 布莱尔 成 为 微软 搜索 研究 的 领军 人 物 之 一 。 在 研究 方面 ， 布 莱 尔 有 
时 不 一 定 能 马上 知道 应 该 怎么 做 ,但 是 能 马上 否定 掉 一 种 不 可 能 的 方案 。 
这 和 他 追求 简单 的 研究 方法 有 关 ， 他 能 在 短 时 间 内 大 致 摸 清 每 种 方法 的 
好 坏 。 人 


如 果 说 柯林斯 是 个 “ 务 于 精 纯 ”的 精深 专 才 ， 布莱尔 则 更 像 “ 观 其 大 上 略 ” 
的 通才 。 在 微软 研究 院 ， 布 莱 尔 创建 了 数据 挖掘 和 搜索 研究 领域 ,并 
在 此 基础 上 将 它 变 为 微软 互联 网 研究 中 心 (Internet Service Research 
Center ) ， 后 来 又 作为 总 经 理 管理 着 微软 的 广告 实验 室 ( AdCenter 
Lab ) 。2009 年 布莱尔 离开 微软 到 eBay, 出 任 CTO 兼 主管 研究 的 副 总 裁 。 


布莱尔 总 是 善于 寻找 简单 却 有 效 的 方法 ， 而 又 从 不 隐 葡 自己 的 方法 ， 所 
以 他 总 是 很 容易 被 包括 我 在 内 的 很 多 人 赶 上 和 超过 。 好 在 布莱尔 对 此 毫 
不 介意 ,而 且 很 喜欢 别人 追赶 他 ， 因 为 ， 当 人 们 在 一 个 研究 方向 上 超过 
他 时 , 说 明 他 开创 的 领域 有 意义 ， 同 时 他 已 经 调转 船 头 驶 向 其 他 方向 了 。 
2005 年 Google 上 市 后 ， 微 软 对 搜索 的 投入 加 大 力度 ， 我 和 他 的 位 置 调 
换 了 一 下 ， 因 为 微软 成 了 Google 的 追赶 者 。 当 我 告诉 他 我 们 的 位 置 调 了 
个 个 儿 时 ,布莱尔 对 我 说 ， 有 一 件 事 我 永远 追 不 上 他 ， 那 就 是 他 比 我 先 
有 了 第 二 个 孩子 。 
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第 23 章 布 隆 过 滤器 


1 ， 布 隆 过 滤器 的 原理 


在 日 常生 活 中 , 包括 设计 计算 机 软件 时 , 经 常 要 判断 一 个 元 素 是 否 在 一 个 
集合 中 。 比如 , 在 字 处 理 软 件 中 , 需要 检查 一 个 英语 单词 是 否 拼 写 正确 ( 也 
就 是 要 判断 它 是 否 在 已 知 的 字典 中 ) ; 在 FBI， 一 个 嫌疑 人 的 名 字 是 否 
已 经 在 嫌疑 名 单 上 ; 在 网 络 息 虫 里 ， 一 个 网 址 是 否 已 访问 过 ， 等 等 。 最 
直接 的 方法 就 是 将 集合 中 全 部 的 元 素 存 在 计算 机 中 ,过 到 一 个 新 元 素 时 ， 
将 它 和 集合 中 的 元 素 直 接 比 较 即 可 。 一 般 来 讲 ， 计 算 机 中 的 集合 是 用 哈 
希 表 ( Hash Table ) 来 存储 的 。 它 的 好 处 是 快速 准确 ,缺点 是 耗费 存储 空间 。 
当 集 合 比较 小 时 ， 这 个 问题 不 明显 ， 当 集合 规模 巨大 时 ， 哈 希 表 存 储 效 
率 低 的 问题 就 显现 出 来 了 。 比 如 ， 一 个 像 Yahoo、Hotmail 和 Gmail 那 
样 的 公众 电子 邮件 ( Email ) 提供 商 ， 总 是 需要 过 滤 来 自发 送 垃圾 邮件 的 
人 (Spamer ) 的 垃圾 邮件 。 采 用 的 一 个 办 法 就 是 记录 下 那些 发 垃圾 邮件 
的 Email 地 址 。 由 于 那些 发 送 者 不 停 地 在 注册 新 的 地 址 ， 全 世界 少 说 也 
有 几 十 亿 个 发 垃圾 邮件 的 地 址 ， 将 这 些 地 址 都 存 起 来 ， 需 要 大 量 的 网 络 
服务 器 。 如 果 用 哈 希 表 ， 每 存储 一 亿 个 Email 地 址 ， 就 需要 1.6GB 的 内 
存 (用 哈 希 表 实现 的 具体 办 法 是 将 每 一 个 Email 地 址 对 应 成 一 个 8 字 节 
的 信息 指纹 ， 然 后 将 这 些 信 息 指 纹 存 人 哈 希 表 ， 由 于 哈 希 表 的 存储 效率 
一 般 只 有 50%， 因 此 一 个 Email 地 址 需要 占用 16 个 字 节 。 一 亿 个 地 址 大 约 
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要 1.6GB， 即 16 亿 字 节 的 内 存 ) 。 因 此 ， 存 储 几 十 亿 个 邮件 地 址 可 能 需要 
上 百 GB 的 内 存 。 除 非 是 超级 计算 机 ， 一 般 服务 器 是 无 法 存储 的 。 


今天 ， 我 们 介绍 一 种 称 作 布 隆 过 滤器 的 数学 工具 ， 它 只 需要 哈 希 表 1/8 
到 1/4 的 大 小 就 能 解决 同样 的 问题 。 


布 隆 过 滤器 是 由 伯 顿 布 隆 ( Burton Bloom ) 于 1970 年 提出 的 。 它 实际 
上 是 一 个 很 长 的 二 进 制 向 量 和 一 系列 随机 映射 函数 。 我 们 通过 上 面 的 例 
子 来 说 明 其 工作 原理 。 


假定 存储 一 亿 个 电子 邮件 地 址 ， 先 建立 一 个 16 亿 二 进 制 ( 比特 ) ， 即 两 
亿 字 节 的 向 量 ， 然 后 将 这 16 亿 个 二 进 制 位 全 部 清 零 。 对 于 每 一 个 电子 邮 
件 地 址 X， 用 8 个 不 同 的 随机 数 产生 器 (Fi,F2,…, Fe) 产生 8 个 信息 指纹 
(fu, 户 …, 存 ) 。 再 用 一 个 随机 数 产生 器 G 把 这 8 个 信息 指纹 映射 到 1-16 
亿 中 的 8 个 自然 数 91,92,…,9s。 现在 把 这 8 个 位 置 的 二 进 制 全 部 设置 为 1。 
对 这 一 亿 个 电子 邮件 地 址 都 进行 这 样 的 处 理 后 ， 一 个 针对 这 些 电子 邮件 
地 址 的 布 降 过 滤器 就 建成 了 ， 见 下 图 。 


23.1 布 隆 过 滤器 的 映射 方法 


现在 ， 让 我 们 看 看 如 何 用 布 隆 过 滤器 来 检测 一 个 可 疑 的 电子 邮件 地 址 Y 是 
否 在 黑 名 单 中 。 用 相同 的 8 个 随机 数 产生 器 (Fi,F2,…,Fe) 对 这 个 地 址 产生 
8 个 信息 指纹 s1,52,…,se ， 然 后 将 这 8 个 指纹 对 应 到 布 隆 过 滤器 的 8 个 三 
进 制 位 ， 分 别 是 ,tz,…,ts 。 如 果 Y 在 黑 名 单 中 ， 显 然 ， 折 ,tz,…, 奶 对 应 的 
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8 个 二 进 制 数 一 定 是 1。 这 样 , 再 遇 到 任何 在 黑 名 单 中 的 电子 邮件 地 址 ， 
都 能 准确 地 发 现 。 


布 隆 过 滤器 决 不 会 漏 掉 黑 名 单 中 的 任何 一 个 可 疑 地 址 。 但 是 ， 它 有 一 个 
不 足 之 处 。 也 就 是 它 有 极 小 的 可 能 将 一 个 不 在 黑 名 单 中 的 电子 邮件 地 址 
也 判定 为 在 黑 名 单 中 ， 因 为 有 可 能 某 个 好 的 邮件 地 址 在 布 隆 过 滤器 中 对 
应 的 8 个 位 置 “ 恰 巧 ”被 (其 他 地 址 ) 设置 成 1。 好 在 这 种 可 能 性 很 小 。 
我 们 把 它 称 为 误 识别 率 。 在 上 面 的 例子 中 , 误 识别 率 在 万 分 之 一 以 下 。 
误 识 别 的 理论 分 析 会 在 延伸 阅读 中 介绍 。 


布 降 过 滤器 的 好 处 在 于 快速 、 省 空间 ， 但 是 有 一 定 的 误 识别 率 。 常 见 的 
补救 办 法 是 再 建立 一 个 小 的 白 名单 ， 存 储 那些 可 能 被 误 判 的 邮件 地 址 。 


2 ”延伸 阅读 : 布 隆 过 滤器 的 误 识别 问题 


读者 背景 知识 : 概率 论 。 


上 一 节 中 提 到 ， 布 隆 过 滤器 的 一 个 不 足 之 处 就 是 它 可 能 把 不 在 集合 中 的 
元 素 错 判 成 集合 中 的 元 素 , 这 在 检验 上 被 称 为 “ 假 阳性 ”。 这 个 概率 很 小 ， 
但 是 究竟 有 多 小 ， 是 否 可 以 忽略 。 


估算 假 阳 性 的 概率 并 不 难 。 假 定 布 隆 过 滤器 有 m 比特 , 里 面 有 n 个 元 素 ， 
每 个 元 素 对 应 k 个 信息 指纹 的 哈 希 函数 ， 当 然 这 m 比特 里 有 些 是 1， 有 些 
是 0。 先 来 看 看 某 个 比特 为 零 的 概率 。 比 如 ， 在 这 个 布 隆 过 滤器 中 插入 一 
个 元 素 ， 它 的 第 一 个 哈 希 函 数 会 把 过 滤器 中 的 某 个 比特 置 成 1， 因 此 ， 任 


何 一 个 比特 被 置 成 1 的 概率 是 1/m ， 它 依然 是 0 的 概率 则 是 1 一 二 

对 于 过 滤器 中 一 个 特定 的 位 置 ， 如 果 这 个 元 素 的 K 个 哈 希 函数 都 没有 把 它 
k 

设置 成 1， 其 概率 是 (1 二) 。 如 果 过 滤器 中 插入 的 第 二 个 元 素 , 某 个 特 

定 的 位 时 依然 没有 被 设 置 成 1， 其 概率 为 (1 二 )”。 如 果 轿 入 了 n 个 元 
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素 还 没有 把 某 个 位 置 设置 成 1， 其 概率 是 (1 一 > 反 过 来 ， 一 个 比特 


es 
m™m, 
在 插入 了 n 个 元 素 后 ， 被 置 成 1 的 概率 则 是 1 一 (@ 富国 。 

现在 假定 这 m 个 元 素 都 放 到 布 隆 过 滤器 中 了 ， 新 来 一 个 不 在 集合 中 的 元 
素 ， 由 于 它 的 信息 指纹 的 哈 希 函数 都 是 随机 的 ， 因 此 ， 它 的 第 一 个 哈 希 
函数 正好 命中 某 个 值 为 1 的 比特 的 概率 就 是 上 述 概率 。 一 个 不 在 集合 中 


的 元 素 被 误 识别 为 在 集合 中 ， 需 要 所 有 的 哈 希 函数 对 应 的 比特 值 均 为 1， 
其 概率 为 


人 = E = 可 ) 本 (1 三 < (23.1) 


化 简 后 为 
mana)n\ tnD) 
(= 页 ) (23.2) 
如 果 n 比 较 大 ， 可 以 近似 为 
(1 — ek(ntos)/m-D)k (1— eM): (23.3) 


假定 一 个 元 素 用 16 比特 ，k = 8， 那 么 假 阳性 的 概率 是 万 分 之 五 。 在 大 
部 分 应 用 中 是 可 以 忍受 的 。 下 表 是 不 同 的 mm /n 比例 ， 以 及 大 情况 下 的 假 
阳性 概率 〈( 下 表 由 原 麦 迪 逊 威斯康星 大 学 曹 培 ( Pei Cao ) 教授 提供 ， 她 
目前 在 Facebook 任职 ) 。 


表 23.1 不 同 m/n 和 上 情况 下 ， 布 隆 过 滤器 的 误 识别 概率 
( 数据 来 源 : http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html ) 


m/n k k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 


2.08 0283 0237 0.253 

0147 0.160 

346 0181 0109 0092 0.092 0.101 

416 0154 00804 00609 00561 00578 0.0638 
485 0.133 0.0618 0.0423 0.0359 0.0347 0.0364 


Neuww wb 
SD : 
9 | 
© 
B 
9 
名 
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m/n k k=1 k=2 
8 555 0.118 0.0489 
9 624 0.105 0.0397 


00166 00141 00133 00135 00145 
00118 000943 0.00844 0.00819 0.00846 
0.00864 0.0065 0.00552 0:00513 0.00509 
0.00646 0.00459 0.00371 0.00329 0.00314 
0.00492 000332 0.00255 0.00217 0.00199 


10 693 0.0952 0.0329 
11 7.62 00869 0.0276 
12 832 0.08 0.0236 
13 901 0074 0.0203 


14 97 00689 0.0177 000381 0.00244 0.00179 0.00146 0.00129 


15 104 00645 0.0156 0003 000183 000128 0.001 0.000852 
16 111 00606 00138 0005 000239 0.00139 0.000935 0.000702 0.000574 
17 118 0.0571 00123 0.00423 0.00193 0.00107 0.000692 0.000499 0.000394 
18 125 0054 00111 0.00362 0.00158 0.000839 0.000519 0.00036 0.000275 
19 132 0.0513 0.00998 0.00312 0.0013 0.000663 0.000394 0.000264 0.000194 
20 139 0.0488 0.00906 00027 000108 0.00053 0.000303 0.000196 0.00014 
21 146 0.0465 0.00825 0.00236 0.000905 0.000427 0.000236 0.000147 0.000101 
22 152 0.0444 0.00755 0.00207 “0.000764 0.000347 0.000185 0.000112 7.46e-05 
23 15.9 0.0425 0.00694 0.00183 0.000649 0.000285 0,.000147 8.56e-05 5.55e-05 
24 166 0.0408 0.00639 0.00162 0.000555 0.000235 0.000117 6.63e-05 4.17e-05 
25 173 0.0392 0.00591 0.00145 0.000478 0.000196 9.44e-05 5.l8e-05 3.16e-05 
26 18 00377 0.00548 0.00129 0.000413 0.000164 7.66e-05 408e-05 2.42e-05 
27 187 00364 00051 0.00116 0.000359 0.000138 626e-05 3.24e-05 1.87e-05 
28 194 00351 0.00475 0.00105 0.000314 0.000117 ”5.15e-05 2.59e-05 1.46e-05 
29 20.1 0.0339 000444 0.000949 0.000276 9.96e-05 426e-05 209e-05 1.14e-05 
30 208 0.0328 0.00416 0.000862 0.000243 8.53e-05 3.55e-05 1.69e-05 9.01le-06 
31 215 0.0317 0.0039 0.000785 0.000215 7.33e-05 2.97e-05 1.38e-05 7.16e-06 


32 222 0.0308 0.00367 0.000717 0.000191 633e-05 2.5e-05 1.13e-05 5.73e-06 


3 小 结 


布 隆 过 滤器 背后 的 数学 原理 在 于 两 个 完全 随机 的 数字 冲突 的 概率 很 小 ; 
此 ， 可 以 在 很 小 的 误 识别 率 条 件 下 ， 用 很 少 的 空间 存储 大 量 信息 。 常 
见 的 补救 误 识别 的 办 法 是 再 在 建立 一 个 小 的 白 名单 ， 存 储 那 些 可 能 被 别 
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误 判 的 信息 。 由 于 布 隆 过 滤器 中 只 有 简单 的 算术 运算 , 因此 它 的 速度 很 快 ， 
使 用 方便 。 


第 24 章 马尔 可 夫 链 的 扩展 一 贝 叶 
斯 网 络 


1 贝 叶 斯 网 络 


前 面 的 章节 中 多 次 提 到 马尔 可 夫 链 ( Markov Chain ) ， 它 描述 了 一 种 状 
态 序列 ， 其 每 个 状态 值 取决 于 前 面 有 限 个 状态 。 这 种 模型 ， 对 很 多 实际 
问题 来 讲 是 一 种 很 粗略 的 简化 。 在 现实 生活 中 ， 很 多 事物 相互 的 关系 并 
不 能 用 一 条 链 来 串 起 来 , 它们 之 间 的 关系 可 能 是 交叉 的 、 错 综 复杂 的 。 
比如 在 下 图 中 可 以 看 到 ， 心 血管 疾病 和 它 的 成 因 之 间 的 关系 是 错综复杂 
的 。 显 然 无 法 用 一 个 链 来 表示 (图 24.1) 。 


心血 管 疾病 /一 _ 


芝 cS 
GD te 


24.1 描述 心血 管 疾病 和 成 因 的 一 个 简单 的 贝 叶 斯 网 络 
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可 以 把 上 述 的 有 向 图 看 成 一 个 网 络 ， 其 中 每 个 圆圈 表示 一 个 状态 。 状 态 
之 间 的 连 线 表示 它们 的 因果 关系 。 比 如 从 心血 管 疾病 出 发 到 吸烟 的 弧 线 
表示 心血 管 疾病 可 能 和 吸烟 有 关 。 假 定 在 这 个 图 中 马尔 可 夫 假 设 成 立 ， 
即 每 一 个 状态 只 和 与 它 直接 相连 的 状态 有 关 ， 而 和 它 间接 相连 的 状态 没 
有 直接 关系 ， 那 么 它 就 是 贝 叶 斯 网 络 。 不 过 要 注意 ， 两 个 状态 4 和 B 之 间 
没有 直接 的 有 向 弧 链接 ， 只 说 明 它们 之 间 没 有 直接 的 因果 关系 。 但 这 并 
不 表明 状态 4 不 会 通过 其 他 状态 间接 地 影响 状态 8， 只 要 在 图 中 有 一 条 从 
4 到 有 的 路 径 ， 这 两 个 状态 就 还 是 有 间接 的 相关 性 的 。 所 有 这 些 ( 因果 ) 
关系 , 都 可 以 有 一 个 量化 的 可 信和 度 ( Belief ) , 用 一 个 概率 描述 。 也 就 是 说 ， 
贝 叶 斯 网 络 的 弧 上 可 以 有 附加 的 权重 。 马 尔 可 夫 假 设 保证 了 贝 叶 斯 网 络 
便于 计算 。 我 们 可 以 通过 这 样 一 张 网 络 估计 出 一 个 人 患 心血 管 疾病 的 可 
能 性 。 


在 网 络 中 每 个 节点 概率 的 计算 ， 都 可 以 用 贝 叶 斯 公式 来 进行 ， 贝 叶 斯 网 
络 因此 而 得 名 。 由 于 网 络 的 每 个 弧 都 有 一 个 可 信 度 ， 贝 叶 斯 网 络 也 被 称 
作 信念 网 络 ( Belief Networks ) 。 在 上 面 的 例子 中 , 我 们 做 一 个 简化 ， 
假定 只 有 三 个 状态 “心血 管 疾病 ”、“ 高 血脂 ”和 “家 族 病 史 ”。 用 这 
个 简化 的 例子 来 说 明 这 个 网 络 中 的 一 些 概率 是 如 何 通过 贝 叶 斯 公式 计算 
出 来 的 。 为 了 简单 起 见 ， 假 定 每 个 状态 取 值 只 有 “有 、 无 ”两 种 ， 如 图 
24.2 所 示 。 图 中 的 三 个 表 各 自 代 表 了 每 个 状态 和 组 合 状态 不 同 取 值 时 的 
条 件 概率 ， 比 如 左上 和 角 的 表 说 明 ， 如 果 有 家 族 病史 时 ， 高 血脂 的 可 能 性 
是 0.4， 如 果 无 家 族 病史 ， 这 个 可 能 性 只 有 0.1。 
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24.2 一 个 简化 的 贝 叶 斯 网 络 


如 果 要 计算 “家 族 病 史 ”、“ 高 血脂 "和 “心血 管 疾病 ”三 者 的 联合 概率 分 布 ， 
可 以 利用 贝 叶 斯 公式 : 


P (家 族 病史 , 高 血脂 , 心血 管 疾病 ) = P (心血 管 疾病 | 家族 病史 ， 
高 血脂 ) x P (高 血脂 | 家 族 病史 ) x P (家族 病史 ) (24.1) 


只 要 代入 表 中 的 数值 就 能 计算 出 概率 。 


再 比如 ， 如 果 问 心血 管 疾病 有 多 大 的 可 能 是 由 家 族 病史 引起 的 ， 也 可 以 
通过 这 个 贝 叶 斯 网 络 计算 出 来 。 


P (有 家 族 病史 | 有 心脏 病 ) = P( 有 家 族 病史 ， 有 心脏 病 ) / 
P (有 心脏 病 ) (24.2) 


其 中 : 


P (有 家 族 病史 ， 有 心脏 病 ) = P (有 家 族 病史 ， 有 心脏 病 ， 无 高 
血脂 ) + P( 有 家 族 病 史 ， 有 心脏 病 ， 有 高 血脂 ) (24.3) 


P (有 心脏 病 ) =P (有 家 族 病 史 ， 有 心脏 病 ， 无 高 血脂 ) + PK 有 
家 族 病史 ， 有 心脏 病 , 有 高 血脂 ) + P (无 家 族 病史 ， 有 心脏 病 ， 
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无 高 血脂 ) + P (无 家 族 病 史 ， 有 心脏 病 ， 有 高 血脂 ) (24.4) 


上 面 两 个 式 子 中 的 每 一 项 都 可 以 通过 ( 24.1 ) 计算 出 来 ， 代 入 图 24.2 中 
的 值 ， 这 个 概率 为 : 


P (有 家 族 病史 ， 有 心脏 病 ) = 0.18 x 0.4 + 0.12 x 0.4 
=0.12 


P (有 心脏 病 ) = 0.12 + 0.08 x 0.4 + 0.72 x 0.1 
= 0.12 + 0.144 
= 0.264 


将 结果 代入 (24.2 ) ， 得 到 : P ( 有 家 族 病史 | 有 心脏 病 ) = 45% 


因此 ， 虽 然 有 家 族 病史 的 人 只 占 人 口 的 20%， 但 是 他 们 占 了 有 心血 管 疾 
病人 数 的 45%， 发 病 率 远 远 高 于 没有 家 族 病 史 的 人 。 


我 们 在 计算 上 面 的 贝 叶 斯 网 络 中 每 个 状态 的 取 值 时 ， 只 考虑 了 前 面 一 个 
状态 ， 这 一 点 和 马尔 可 夫 链 相 同 。 但 是 ， 贝 叶 斯 网 络 的 拓扑 结构 比 马尔 
可 夫 链 灵活 ， 它 不 受 马尔 可 夫 链 的 链 状 结构 的 约束 ， 因 此 可 以 更 准确 地 
描述 事件 之 间 的 相关 性 。 可 以 讲 ， 马 尔 可 夫 链 是 贝 叶 斯 网 络 的 特例 ， 而 
贝 叶 斯 网 络 是 马尔 可 夫 链 的 推广 。 


使 用 贝 叶 斯 网 络 必须 先 确定 这 个 网 络 的 拓扑 结构 ， 然 后 还 要 知道 各 个 状 
态 之 间 相关 的 概率 ， 也 就 是 图 24.2 中 的 那些 表 。 得 到 拓扑 结构 和 这 些 参 
数 的 过 程 分 别 叫 做 结构 训练 和 参数 训练 ， 统 称 训 练 。 和 训练 马尔 可 夫 模 
型 一 样 , 训练 贝 叶 斯 网 络 要 用 一 些 已 知 的 数据 。 比 如 训练 上 面 的 网 络 ， 
需要 知道 一 些 心血 管 疾病 和 吸烟 、 家 族 病 史 等 有 关 的 情况 。 相 比 马 尔 可 
夫 链 ， 贝 叶 斯 网 络 的 训练 比较 复杂 ， 从 理论 上 讲 ， 它 是 一 个 NP 完备 问 
题 (NP-Complete ) , 也 就 是 说 , 对 于 现在 的 计算 机 是 不 可 计算 的 。 但 是 ， 
对 于 某 些 应 用 ， 这 个 训练 过 程 可 以 简化 ， 并 在 计算 机 上 实现 。 
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值得 一 提 的 是 IBM 华 生 实验 室 的 欧 威 格 博士 ( Geoffrey Zweig ) 和 西 雅 
图 华盛顿 大 学 的 比尔 默 ( Jeff Bilmer ) 教授 完成 了 一 个 通用 的 贝 叶 斯 网 络 
的 工具 包 ， 提 供给 对 贝 叶 斯 网 络 有 兴趣 的 研究 者 。 


贝 叶 斯 网 络 在 图 像 处 理 、 文 字 处 理 、 支 持 决策 等 方面 有 很 多 应 用 。 在 文 
字 处 理 方面 ,语义 相近 的 词 之 间 的 关系 可 以 用 一 个 贝 叶 斯 网 络 来 描述 。 
我 们 利用 贝 叶 斯 网 络 ， 可 以 找 出 近义词 和 相关 的 词 ， 因 而 在 Google 搜索 
和 Google 广告 中 都 有 直接 的 应 用 。 


2 贝 叶 斯 网 络 在 词 分 类 中 的 应 用 


可 以 用 基于 统计 的 模型 分 析 文本 ， 从 中 抽取 概念 ， 分 析 主 题 。 不 妨 把 这 
样 的 模型 称 为 主题 模型 ( Topic Model ) 。 前 面 章节 中 提 到 的 从 一 篇 文 
章 里 得 到 它 的 特征 向 量 ， 然 后 把 这 个 特征 向 量 通过 余弦 相似 性 (距离 ) 
对 应 到 一 个 主题 的 特征 向 量 ， 便 是 统计 主题 模型 的 一 种 。 这 里 介绍 通过 
贝 叶 斯 网 络 建立 的 另 一 种 模型 ，Google 的 Rephil。 由 于 不 便 透 露 太 多 
Rephil 的 细节 ， 因 此 在 这 里 我 改 用 自己 的 语言 讲述 它 的 原理 ， 听 过 这 个 
主题 报告 或 者 读 过 报告 幻灯 片 的 读者 可 能 会 发 现 我 的 讲法 略 有 不 同 ， 但 
原理 是 相同 的 。 


在 介绍 Rephil 以 前 ,我 们 先 来 回顾 一 下 文本 分 类 。 假 如 我 们 有 一 亿 篇 文本 ， 
我 们 或 者 使 用 (文本 和 关键 词 ) 关联 矩阵 的 奇异 值 分 解 ， 或 者 使 用 余弦 
距离 的 聚 类 ， 可 以 将 它们 分 成 一 万 类 ， 当 然 这 个 类 别 的 数量 可 以 由 工程 
人 员 自 己 定 。 对 于 一 篇 文章 ， 可 以 把 它 归 到 一 类 或 者 若 于 类 中 。 同 一 类 
的 文章 , 共享 很 多 关键 词 。 至 于 关键 词 是 怎么 产生 的 ,可 以 有 各 种 办 法 ， 
比如 人 工 挑选 。 但 是 大 规模 数据 处 理 需 要 用 自动 的 办 法 。 这 样 ， 不 同 的 
文章 通过 关键 词 建立 了 一 种 关系 ,这 种 关系 表明 一 些 文章 属于 同一 类 或 
者 不 属于 同一 类 。 


如 果 把 文本 和 关键 词 的 关联 矩阵 转 90 度 ， 进 行 奇 异 值 分 解 ， 或 者 对 每 个 
词 以 文本 作为 维度 ， 建 立 一 个 向 量 ， 再 进行 向 量 的 聚 类 ， 那 么 得 到 的 是 对 
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词 的 一 个 分 类 而 不 是 对 文本 的 分 类 。 分 出 来 的 每 一 类 我 们 称 为 一 个 概念 。 


显然 ,一 个 概念 可 以 包含 多 个 词 ， 一 个 词 也 可 以 属于 多 个 概念 。 类 似 地 ， 
一 篇 文章 可 以 对 应 多 个 概念 ， 而 一 个 概念 也 对 应 多 篇 文章 。 现 在 可 以 用 贝 
叶 斯 网 络 建立 一 个 文章 、 概 念 和 关键 词 之 间 的 联系 : 


图 24.3 ”描述 文章 ( D ) 、 主 题 (T ) 和 关键 词 ( W ) 的 贝 叶 斯 网 络 


在 图 24.3 中 ,文章 和 关键 词 本 身 有 直接 的 关联 ， 它 们 两 者 都 还 和 概念 有 
直接 关联 ， 同 时 它们 通过 主题 还 有 间接 的 关联 。 就 如 同 24.1 节 中 的 那个 
例子 ， 可 以 找到 心血 管 疾病 和 家 族 病 史 之 间 的 关系 一 样 ， 也 可 以 通过 上 
面 这 个 网 络 找 到 每 个 概念 和 每 个 词 之 间 的 相关 性 ， 以 及 词 和 词 之 间 的 相 
关 性 。 只 是 这 个 相关 性 未 必 是 条 件 概率 。 


2002 年 ，Google 的 工程 师 们 利用 贝 叶 斯 网 络 ， 建 立 了 文章 、 概 念 和 关键 
词 的 联系 ,将 上 百 万 关键 词 聚 合成 若干 概念 的 聚 类 ， 称 为 Phil Cluster。 
这 项 工作 最 初 甚至 没有 考虑 应 用 背景 ， 只 是 觉得 概念 的 提取 将 来 对 信息 
处 理会 有 帮助 。 而 最 早 的 应 用 是 广告 的 扩展 匹配 ， 这 是 Phil Cluster 完成 
后 几 个 月 里 的 事情 。 由 于 早期 只 考虑 了 关键 词 和 文本 的 关系 ， 对 关键 词 
上 下 文 关 系 考 虑 较 少 ， 因 此 这 个 概念 的 聚 类 过 于 广泛 ， 比 如 计算 机 和 股 
票 可 能 被 聚 在 一 类 中 ， 汽 车 和 美国 总 统 的 名 字 聚 在 一 起 。/ 这 严重 影响 了 
Google 各 个 项 目 组 对 Phil Cluster 的 接受 程度 。2004 年 ，Google 开始 重 
构 Phil Cluster， 这 次 采用 了 比 原先 多 几 百 倍 的 数据 ， 考 虑 的 关键 词 的 相 
似 性 也 从 原来 的 在 文本 中 同 现 扩展 为 在 上 下 文中 同 现 ， 同 时 支持 不 同 颗 
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粒 的 概念 。 因 为 是 重 构 ， 所 以 项 目的 名 称 改 为 Rephil。Rephil 聚合 了 大 
约 1 200 万 个 词 ， 将 它们 育 合 到 上 百 万 的 概念 中 。 一 个 概念 一 般 有 十 几 个 
到 上 百 个 词 。 由 于 Rephil 的 质量 比 以 前 有 很 大 提高 ， 因 此 从 广告 到 搜索 
都 用 到 了 它 的 成 果 。 久 而 久之 ， 就 没有 多 少 人 知道 Phil 了 。Rephil 的 网 
络 结构 比 原先 的 Phil 复杂 很 多 ， 但 是 原理 类 似 。 


3 延伸 阅读 : 贝 叶 斯 网 络 的 训练 


读者 背景 知识 .概率 论 。 


使 用 贝 叶 斯 网 络 首先 要 确定 它 的 结构 。 对 于 简单 的 问题 ， 比 如 上 面 那个 
心血 管 疾病 的 例子 ， 由 专家 直接 给 出 它 的 结构 即 可 。 但 是 ， 稍 微 复杂 一 
点 的 问题 已 经 无 法 人 工 给 出 结构 了 ， 需 要 通过 机 器 学 习 得 到 。 


优化 的 贝 叶 斯 网 络 结构 要 保证 它 产 生 的 序列 ( 比如 “家 族 病史 一 高 血脂 
一 心血 管 疾病 ”就 是 一 个 序列 ) 从 头 走 到 尾 的 可 能 性 最 大 ， 如 果 是 使 用 
概率 做 度量 , 那 就 是 后 验 概率 最 大 。 当然 , 产生 一 个 序列 可 以 有 多 条 路 径 ， 
从 理论 上 讲 , 需要 完备 的 搜索 ( Exhaustive Search ) ， 即 考虑 每 一 条 路 径 ， 
才能 得 到 全 局 最 优 。 但 是 这 样 的 计算 复杂 度 是 NP-Hard ( 详 见 附录 一 ) ， 
因此 一 般 采 用 贪 焚 的 算法 ( Greedy Algorithm ) ， 也 就 是 在 每 一 步 时 ， 

沿 着 箭头 的 方向 寻找 有 限 步 。 当 然 这 样 会 导致 的 人 局 部 最 优 ， 并 且 最 
终 远离 全 局 最 优 解 。 一 个 防止 显然 局 部 最 优 的 方法 ， 就 是 采用 蒙特 卡 罗 
( Monte Carlo ) 的 方法 ， 用 许多 随机 数 在 贝 叶 斯 网 络 中 试 一 试 ， 看 看 是 
否 显然 局 部 最 优 。 这 个 方法 的 计算 量 比 较 大 。 最 近 ， 新 的 方法 是 利用 信 
息 论 ， 计 算 节 点 之 间 两 两 的 互信 息 ， 然 后 只 保留 互信 息 较 大 的 节点 直接 
的 连接 ,然后 再 对 简化 了 的 网 络 进行 完备 的 搜索 ,找到 全 局 优化 的 结构 。 


确定 贝 叶 斯 网 络 的 结构 后 ， 就 要 确定 这 些 节点 之 间 的 弧 的 权重 了 盖 假定 
这 些 权重 用 条 件 概率 来 度量 。 为 此 ， 需 要 一 些 训练 数据 ， 我 们 需要 向 的 
就 是 优化 贝 叶 斯 网 络 的 参数 , 使 得 观察 到 的 这 些 数据 的 概率 ( 即 后 验 概率 ) 
P(DI6) 达到 最 大 。 这 个 过 程 就 是 前 面 介绍 过 的 EM 过 程 ( Expectation- 
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Maximization Process ) 。 


在 计算 后 验 概率 时 ,计算 的 是 条 件 X 和 结果 Y 之 间 的 联合 概率 P(X,Y)。 
我 们 的 训练 数据 会 提供 一 些 P(X,Y) 之 间 的 限制 条 件 ， 而 训练 出 来 的 模型 
要 满足 这 些 限制 条 件 。 回 顾 我 们 在 “最 大 炳 模型 ”一 章 中 介绍 的 内 容 ， 
这 个 模型 应 该 是 满足 给 定 条 件 的 最 大 炳 模型 。 因 此 ， 涉 及 到 最 大 炳 模型 
的 训练 方法 在 这 里 都 可 以 使 用 。 


最 后 ， 需 要 指明 结构 的 训练 和 参数 的 训练 通常 是 交替 进行 的 。 也 就 是 先 
优化 参数 ， 再 优化 结构 ， 然 后 再 次 优化 参数 ， 直 至 得 到 收敛 或 者 误差 足 
够 小 的 模型 。 


对 贝 叶 斯 网 络 有 特别 兴趣 的 读者 ， 可 以 阅读 比尔 默 和 茨 威 格 共同 发 表 的 
论文 : 


http://ssli.ee.washington.edu/~bilmes/pgs/sort_date.html 


4 小 结 


从 数学 的 层面 讲 ， 贝 叶 斯 网 络 是 一 个 加 权 的 有 向 图 ， 是 马尔 可 夫 链 的 扩 
展 。 而 从 认识 论 的 层面 看 : 贝 叶 斯 网 络 克服 了 马尔 可 夫 链 那 种 机 械 的 线 
性 的 约束 ， 它 可 以 把 任何 有 关联 的 事件 统一 到 它 的 框架 下 面 。 因 此 ， 贝 
叶 斯 网 络 有 很 多 应 用 , 除了 我 介绍 的 文本 分 类 和 概念 抽取 外 , 在 生物 统计 、 
图 像 处 理 、 决 策 支持 系统 和 博弈 论 中 都 有 广泛 应 用 。 贝 叶 斯 网 络 的 描述 
非常 简单 易 慌 ， 但 导出 的 模型 却 非常 复杂 。 
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条 件 随 机 场 是 计算 联合 概率 分 布 的 有 效 模 型 ， 而 句法 分 析 似乎 是 英文 课 上 
英语 老师 教 的 东西 ， 这 两 者 有 何 联系 呢 ? 我 们 先 从 句法 分 析 的 演变 谈 起 。 


1 句法 分 析 计 算 机 算法 的 演变 


我 们 讲 到 自然 语言 的 句法 分 析 就 是 为 每 个 句子 建立 一 棵 语法 树 。 以 前 受 
形式 语言 学 的 影响 ， 采 用 基于 规则 的 方法 ， 那 么 建 这 棵 语法 树 的 过 程 就 
是 不 断 地 使 用 规则 将 树 的 末端 节点 逐 级 向 上 合并 ， 直 到 合并 出 根 节 点 ， 
即 一 个 整 句 。 这 个 方法 是 自 底 向 上 的 ， 当 然 也 可 以 自 项 向 下 进行 。 不 论 
是 哪 一 种 ,都 有 一 个 无 法 避免 的 问题 , 就 是 选择 规则 时 不 可 能 一 次 选 对 。 
如 果 在 某 一 步 一 旦 走 岔 路 了 ， 需 要 回 湖 很 多 步 。 因 此 ， 这 两 种 方法 的 计 
算 复 杂 度 都 大 得 不 得 了 ， 也 不 可 能 分 析 复 杂 的 句子 。 


上 个 世纪 80 年 代 以 后 ， 布 朗 大 学 计算 机 系 的 计算 语言 学 家 尤 金 ' 查 尼 阿 
克 (Eugene Charniack ) 统计 出 文法 规则 的 概率 ， 在 选择 文法 规则 时 ， 
坚持 一 个 原则 一 让 被 分 析 的 句子 的 语法 树 概率 达到 最 大 。 这 个 看 似 非 
常 简单 直接 的 方法 ， 使 得 句法 分 析 的 计算 量 一 下 降低 了 很 多 ， 而 准确 性 
却 大 大 提高 。 查 尼 阿 克 无 形 中 在 数学 和 句法 分 析 上 搭建 了 一 个 桥梁 。 而 
搭建 这 个 桥梁 的 第 二 个 人 就 是 马 库 斯 的 学 生 拉 纳 帕 提 。 
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用 马 库 斯 的 另 一 个 高 足 布莱尔 的 话 讲 ， 拉 纳 帕 提 是 绝顶 聪明 的 人 ， 不 过 从 
我 个 人 接触 来 看 ， 我 认为 他 更 大 的 长 处 在 于 极 强 的 动手 能 力 。 拉 纳 帕 提 从 
全 新 的 角度 来 看 待 句法 分 析 问 题 一 把 句法 分 析 看 成 是 一 个 括 括号 的 过 程 。 


还 是 举 前 面 章节 中 的 那个 很 长 的 句子 为 例 ， 来 说 明 拉 纳 帕 提 的 方法 。 


美联储 主席 本 。 伯 南 克 昨天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 借 给 上 百 家 银行 、 保 险 
公司 和 汽车 公司 。 


我 们 先 对 它 进 行 分 词 


美联储 | 主席 | 本 伯 南 克 | 昨天 | 告诉 | 媒体 | 7000 亿 | 美元 | 的 | 救助 | 资金 | 将 
1 借 给 | 上 百 上 家 | 银行 | 、| 保险 公司 | 和 | 汽车 公司 | 


然后 将 这 些 词 从 左 到 右 扫 描 一 遍 ， 用 括号 括 起 来 ， 形 成 词组 ; 


(美联储 主席 ) | 本 伯 南 克 | 昨天 | 告诉 | 媒体 (7000 亿 美元 ) | 的 (救助 资金 ) 
(将 借 给 ) (上 百 家 ) (银行 、 保险 公司 和 汽车 公司 ) 


然后 , 拉 纳 帕 提 给 每 个 括号 一 个 句子 成 分 ,比如 “美联储 主席 "是 名 词 短 语 。 
接 下 来 ， 继 续 重复 以 上 括 括号 的 过 程 。 


[ (美联储 主席 ) 本 … 伯 南 克 ] 昨天 | 告诉 | 媒体 [(7000 亿 美元 ) 的 (救助 资金 ) 
] (将 借 给 ) [ (上 百 家 ) (银行 、 保险 公司 和 汽车 公司 ) ] 


直到 整个 句子 都 被 一 个 大 括号 覆盖 。 每 一 个 括号 ,就 是 句子 的 一 个 成 分 ， 
括号 之 间 嵌 套 关系 ， 就 是 不 同 层面 的 句子 成 分 的 构成 关系 。 


拉 纳 帕 提 每 次 从 左 到 右 扫描 句子 的 每 个 词 ( 或 者 句子 成 分 ) 时 ， 只 需要 
判断 是 否 属于 以 下 三 个 操作 之 一 : 

Al. 是 否 开始 一 个 新 的 左 括号 ， 比 如 在 “美联储 ”是 新 括号 的 开始 。 

A2. 是 否 继续 留 在 这 个 括号 中 ， 比 如 在 “保险 公司 ”的 位 置 ， 是 继续 留 在 括号 中 。 


A3. 是 否 结束 一 个 括号 ， 即 标 上 右 括号 ， 比 如 “资金 ”的 位 置 是 一 个 括号 的 结束 。 
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为 了 判断 是 采用 哪个 操作 ， 拉 纳 帕 提 建 立 了 一 个 统计 模型 P(A|prefix)， 
其 中 4 表示 行动 ， 句 子 前 缀 prefix 是 指 句 子 从 开头 到 目前 为 止 所 有 的 词 
和 语法 成 分 。 最 后 ， 拉 纳 帕 提 用 最 大 粹 模型 实现 了 这 个 模型 。 当 然 ， 拉 
纳 帕 提 还 用 一 个 统计 模型 来 预测 句子 成 分 的 种 类 。 


这 个 方法 速度 非常 快 。 每 次 扫描 ， 句 子 成 分 的 数量 就 按 一 定 比 例 减少 
因此 ， 扫 描 的 次 数 是 句子 长 度 的 对 数 函 数 ， 很 容易 证 明 ， 整 个 算法 和 人 句 
子 长 度 成 正比 。 从 算法 复杂 度 的 角度 来 讲 ， 这 个 算法 的 计算 时 间 已 经 是 
最 优 的 了 。 


拉 纳 帕 提 的 方法 讲 起 来 非常 简单 ， 但 是 想到 它 确实 很 了 不 起 。 ( 可 见 好 
方法 在 形式 上 常常 是 简单 的 。) 可 以 说 ， 他 是 真正 将 句法 分 析 和 数学 模型 
联系 起 来 的 关键 人 物 。 从 那个 时 候 起 ， 大 部 分 句法 分 析 的 方法 都 从 启发 
式 搜索 转 到 了 括 括号 上 。 而 句法 分 析 的 准确 性 很 大 程度 上 取决 于 统计 模 
型 的 好 坏 ， 以 及 从 prefix 提取 的 特征 的 有 效 性 。 前 面 我 们 讲 过 马 库 斯 的 
博士 生 柯 林 斯 的 博士 论文 做 得 非常 出 色 ， 原 因 就 是 他 在 特征 提取 上 做 了 
深入 的 研究 。 


从 上 个 世纪 70 年 代 出 现 了 统计 语言 学 和 统计 语言 模型 ， 到 上 个 世纪 90 
年 代 拉 纳 帕 提 等 人 通过 统计 模型 将 数学 和 句法 分 析 结合 起 来 ， 科 学 家 们 
对 于 非常 “规矩 ”的 语句 ， 比 如 《华尔街 日 报 》 的 句子 进行 句法 的 分 析 ， 
正确 率 可 以 达到 80% 以 上 ， 基 本 上 达到 了 普通 人 的 水 平 。2000 年 后 ， 随 
着 互联 网 的 普及 ， 读 者 接触 的 内 容 不 再 是 以 专业 人 士 严谨 的 写作 为 主 
很 多 都 是 网 民 们 随意 创作 的 内 容 。 这 些 “ 写 得 不 是 太 好 ”的 句子 ， 或 者 
有 严重 语法 错误 的 句子 ， 以 往 任何 文法 分 析 器 ， 包 括 柯林斯 做 的 ， 正 确 
率 连 50% 也 达 不 到 。 


所 幸 在 很 多 自然 语言 处 理 的 应 用 中 ， 并 不 需要 对 语句 做 深入 的 分 析 ， 只 
要 做 浅 层 的 分 析 ( Shallow Parsing ) ， 比 如 找 出 句子 中 主要 的 词组 以 及 它 
们 之 间 的 关系 即 可 。 于 是 科学 家 研究 的 重点 从 语句 的 深层 分 析 转 到 对 语 
句 的 浅 层 分 析 上 。 到 上 世纪 90 年 代 后 ， 随 着 计算 机 计算 能 力 的 增强 , 科 
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学 家 们 采用 了 一 种 新 的 数学 模型 工具 一 条 件 随机 场 ， 大 大 提高 了 句子 
浅 层 分 析 的 正确 率 , 正确 率 可 达 95%, 使 得 句法 分 析 得 以 应 用 到 很 多 产品 ， 
比如 机 器 翻译 上 。 


2 条件 随机 场 


人 的 {8 
@) 的 


25.1 在 隐 含 马尔 可 夫 模型 中 ， 输 出 只 和 状态 有 关 


在 一 个 隐 含 马尔 可 夫 模型 中 ， 以 zz 加 表示 观测 值 序列 ， 以 
加 3 ,为 表示 隐 含 的 状态 序列 ， 那 么 只 取决 于 产生 它们 的 状态 关 ， 和 
前 后 的 状态 yi-1，yi+ 都 无 关 。 显 然 在 很 多 应 用 里 观察 值 *! 可 能 和 前 后 的 
状态 都 有 关 ， 如 果 把 x 和 六-1，%，yit1 都 考虑 进来 ， 对 应 的 模型 如 下 


25.2 一 个 普遍 意义 的 条 件 随机 场 


这 样 的 模型 就 是 条 件 随机 场 。 


条 件 随机 场 是 隐 含 马尔 可 夫 模型 的 一 种 扩展 ， 它 保留 了 隐 含 马尔 可 夫 模 
型 的 一 些 特性 , 比如 在 图 中 的 六 ,yz,… 等 状态 的 序列 还 是 王 个 马尔 可 夫 链 。 
更 广义 地 讲 ， 条 件 随机 场 是 一 种 特殊 的 概率 图 模型 (Probabilistic-Graph 
Model ) 。 在 这 个 图 中 ， 顶 点 代表 一 个 个 随机 变量 ， 比 如 z 和 为 y 顶点 之 
间 的 弧 代 表 它们 相互 的 依赖 关系 ， 通 常 采用 一 种 概率 分 布 ;5 比如 P(xi, 芒 ) 
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来 描述 。 它 的 特殊 性 在 于 ， 变 量 之 间 要 遵守 马尔 可 夫 假 设 ， 即 每 个 状态 
的 转移 概率 只 取决 于 相 邻 的 状态 ， 这 一 点 ， 它 和 我 们 前 面 介绍 的 另 一 种 
概率 图 模型 一 贝 叶 斯 网 络 相同 。 而 它们 的 不 同 之 处 在 于 ， 条 件 随机 场 是 
无 向 图 ， 而 贝 叶 斯 网 络 是 有 向 图 。 


在 大 部 分 应 用 中 ， 条 件 随 机 场 的 节点 分 为 状态 节点 的 集合 Y 和 观察 变量 节 
点 的 集合 XxX。 整个 条 件 随机 场 的 量化 模型 就 是 这 两 个 集合 的 联合 概率 分 布 
模型 P(X,Y) 


P(X,Y) = P(X1, Xz,..., Xn V1 2 yn) (25.1) 


由 于 这 个 模型 的 变量 特别 多 ， 不 可 能 获得 足够 多 的 数据 来 用 大 数 定理 直 
接 估计 ， 因 此 只 能 通过 它 的 一 些 边缘 分 布 ( Marginal Distribution ) ， 比 
如 P(x1)，P(y2)，P(x1,y3) 等 等 来 找 出 一 个 符合 所 有 这 些 条件 的 概率 分 布 
函数 。 当 然 ， 这 样 的 函数 可 能 不 止 一 个 (通常 如 此 ) 。 根 据 最 大 炳 原则 ， 
我 们 希望 找到 一 个 符合 所 有 边缘 分 布 ， 同 时 使 得 炳 达到 最 大 的 模型 。 前 
面 介绍 过 ， 这 个 模型 是 指数 函数 。 每 一 个 边缘 分 布 ， 对 应 指数 模型 中 的 
一 个 特征 用 ( Feature ) ， 比 如 针对 加 的 边缘 分 布 的 特征 就 是 : 


Fix xza xn V1 Y21 1 Ym) = fi(x1) (25.2) 


因为 这 个 特征 表明 它 和 除 六 以 外 的 变量 无 关 。 如 果 某 个 特征 函数 对 应 一 
些 变量 的 取 值 是 零 ， 说 明 这 些 特 征 函数 对 这 些 变量 不 起 作用 。 把 这 些 特 
征 都 应 用 到 模型 中 ， 得 到 如 下 的 公式 : 
及 + 万 + 
Pa Xa Xn YL Ya Ym) = (25.3) 
以 浅 层 句 法 分 析 为 例 ， 说 明 这 个 条 件 随机 场 的 模型 是 如 何 工作 ， 如 何 训 
练 的 。 


假定 X 代表 看 到 的 东西 ， 在 浅 层 分 析 中 ， 它 是 句子 中 的 词 、 每 个 词 的 词 
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性 等 ; 了 代表 要 推导 的 东西 ， 它 是 语法 成 分 ， 比 如 名 词 短 语 、 动 词 短语 、 
时 间 短 语 等 。 以 曾经 举 过 的 最 简单 的 句子 “ 徐 志摩 喜欢 林徽因 ”为 例 来 
说 明 浅 层 分 析 的 模型 。 这 里 , 观察 到 的 序列 是 徐 志摩 / 名 词 , 喜欢 /动词 ， 
林徽因 / 名 词 ， 希 望 找到 的 状态 序列 是 “名 词 短语 ， 动 词 短语 ”。 我 们 
还 是 用 信道 模型 来 说 明 这 个 分 析 的 过 程 ， 如 图 25.3 所 示 。 


Y = 名 词 短语 ， 动 词 短语 X = 徐 志摩 / 名 词 ， 喜 欢 / 动词， 林徽因 / 名 词 


| 信息 | 一 一 >| 信道 ”| 一 一 ->| 接收 信息 
PC 


图 25.3 句子 文法 分 析 的 通信 模型 


主语 谓语 句号 
名 词 短语 

名 词 动词 名 词 

徐 志摩 喜欢 林徽因 。 


25.4 “ 徐 志摩 喜欢 林徽因 ”的 分 析 树 


在 图 25.4 所 示 的 分 析 树 中 ， 它 的 特征 是 各 个 节点 、 同 一 层 节点 顺序 的 组 
合 、 不 同 层次 节点 的 组 合 , 等 等 。 这 里 , 同一 层 节 点 顺序 的 组 合 可 以 是 “ 徐 
志摩 - 喜欢 ”、“ 动 词 - 名 词 ”等 , 不 同 层次 节点 的 组 合 其 实 是 一 些 子 树 ， 
比如 “名 词 短语 ” 重 写 ( Rewrite ) 成 “名 词 ”，“ 动 词 短语 ” 重 写成 “ 动 
词 ， 名 词 短语 ”等 。 在 考虑 一 些 特征 后 ， 可 以 用 下 面 的 公式 计算 这 个 条 
件 随 机 场 的 概率 
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P( 徐 志摩 /名 词 ， 喜 欢 /动词 ， 林 微 因 /名 词 ， 名 词 短语 ,动词 短语 ) 
= exp{/( 徐 志摩 ， 名 词 ) 
十 万 ( 喜 欢 ， 动 词 ) + 万 (林徽因 ， 名 词 ) 
十 有 4( 徐 志摩 ， 名 词 ， 名 词 短语 ) + fs( 名 词 ， 名 词 短语 ) (25.4) 
+ 万 丛 欢 ， 动 词 ， 林 徽 因 ， 名 词 ， 动 词 短语 ) 
+ 方 (名 词 短语 ， 动 词 短 语 ) + (名 词 短语 ) 
+ 及 (动词 短语 ) +/io( 动 词 ， 名 词 ， 动 词 短语 )} 


这 里 ， 每 一 个 特征 /0 的 参数 都 可 以 用 前 面 提 到 的 最 大 业 模 型 的 训练 方法 
得 到 。 


最 早 采 用 条 件 随 机 场 对 句子 进行 浅 层 分 析 的 是 宾夕法尼亚 大 学 的 博士 生 
沙 飞 (Fei Sha ) 和 他 的 导师 (之 一 ) 皮 耶 尔 。 他 们 继承 了 拉 纳 帕 提 的 方法 ， 
只 做 了 句子 分 析 的 第 一 层 ， 即 从 词 到 词组 的 自动 组 合 。 由 于 改进 了 统计 
模型 ， 因 此 句子 浅 层 分 析 的 正确 率 高 达 94% 左右 ， 这 在 自然 语言 处 理 中 
是 一 个 很 高 的 水 平 了 。 


2005 年 ,李开复 博士 来 到 Google 后 从 朱 会 灿 和 我 的 手中 接 走 了 中 文 搜索 ， 
我 便 去 领导 开发 为 整个 公司 服务 的 通用 句子 文法 分 析 器 一 Gparser 的 项 
目 ， 其 中 G 代表 Google。 我 们 采用 的 方法 跟 沙 飞 和 皮 耶 尔 的 类 似 ( 当时 
皮 耶 尔 还 没有 到 Google ) 。 不 同 的 是 ， 我 们 不 仅 做 第 一 层 的 分 析 ， 而 且 
可 以 像 拉 纳 帕 提 那 样 ， 一 层 层 地 分 析 到 句子 语法 树 的 顶部 。 基 本 的 模型 
依然 是 条 件 随机 场 。 


在 每 一 层 分 析 中 ,我们 建立 了 这 样 一 个 模型 P(X,Y)。 其 中 xX 是 句子 
中 的 词 wi,wz,…,wn、 词 性 posi,posz,…,posn、 每 一 层 语法 成 分 的 名 称 
负 , 启 ,…hm 等 等 ,7 是 操作 ( 左 括号 ， 继 续 留 在 括号 中 ， 和 右 括号 ) 以 
及 新 的 一 层 语法 成 分 的 名 称 。 如 果 展 开 写 ， 就 是 


P(w, Wa ,Wns POS1, POS2, .…., POSn, hy, fh2, -firms 7) (25.5) 


这 个 看 似 包罗 万 象 的 模型 ， 在 工程 上 有 很 大 的 问题 。 首 先 ， 这 是 一 个 非 
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常 复杂 的 模型 ， 因 此 它 的 训练 是 个 大 问题 。 其 次 ， 各 种 条 件 的 组 合 数 是 
天 文 数字 ， 即 使 有 Google 的 数据 ， 其 中 任何 一 个 组 合 可 能 都 出 现 不 了 几 
次 。 因 此 需要 解决 下 面 两 个 问题 。 


首先 ， 做 一 个 近似 ， 把 限制 条 件 的 组 合 wl, wz, …,Wn,Pposl,posz,…,Pposnm， 
名, 如,…,hm 拆 成 很 多 子 集 ， 比 如 最 后 的 两 个 词 w-t wn ， 最 后 两 个 句子 
成 分 hn-1, hm 等 等 ， 在 每 一 个 子 集 和 要 预测 的 操作 ( 以 及 更 高 层次 的 语 
法 成 份 名 称 ) 之 间 可 以 找到 可 靠 的 统计 关系 。 


其 次 , 在 训练 数据 中 把 每 一 个 统计 量 足够 的 统计 关系 作为 一 个 限制 条 件 ， 
我 们 的 目标 是 寻找 符合 所 有 这 些 限制 条 件 的 最 大 炳 模型 。 


这 样 ， 就 可 以 用 最 大 炳 模型 的 方法 ， 得 到 这 个 语法 分 析 器 了 。 


这 样 得 到 的 语法 分 析 器 ， 对 于 网 页 数据 ， 句 子 浅 层 分 析 的 结果 接近 沙 飞 
论文 对 《华尔街 日 报 》 的 准确 性 ， 但 是 可 以 处 理 很 “ 脏 ” 的 网 页 数据 。 
这 个 分 析 器 ， 先 后 被 用 到 Google 的 许多 产品 中 。 


3 小 结 


条 件 随机 场 是 一 个 非常 灵活 的 用 于 预测 的 统计 模型 。 虽 然 在 本 章 中 我 们 
强调 了 它 在 自然 语言 处 理 ， 特 别 是 在 句子 分 析 中 的 应 用 ， 但 是 它 的 应 用 
领域 远 远 不 止 这 些 。 它 在 模式 识别 、 机 器 学 习 和 生物 统计 中 都 有 很 成 功 
的 应 用 。 


和 最 大 灶 模 型 一 样 ， 条 件 随机 场 的 形式 简单 ， 但 是 实现 复杂 ， 所 幸 的 是 
现在 有 不 少 开源 的 软件 可 供 使 用 ， 对 于 一 般 的 工程 人 员 应 该 是 足够 了 。 
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说 起 安德鲁 . 维特 比 (Andrew Viterbi ) ， 不 是 通信 行业 的 人 可 能 知道 他 
的 并 不 多 ， 虽 然 很 多 通信 行业 的 从 业者 大 多 知道 以 他 的 名 字 命 名 的 维特 
比 算法 (Viterbi Algorithm ) 。 维 特 比 算法 是 现代 数字 通信 中 使 用 最 频繁 
的 算法 ， 同 时 也 是 很 多 自然 语言 处 理 的 解码 算法 。 可 以 毫 不 夸张 地 讲 ， 
维特 比 是 对 我 们 今天 的 生活 影响 力 最 大 的 科学 家 之 一 ， 因 为 今天 基于 
CDMA 的 3G 移动 通信 标准 主要 就 是 他 和 欧文 ， 雅克 布 斯 (Irwin Mark 
Jacobs ) 创办 的 高 通 公 司 (Qualcomm ) 制定 的 。 


1 维特 比 算法 


我 第 一 次 听 到 维特 比 这 个 名 字 还 是 1986 年 学 习 图 论 的 维特 比 算法 时 了 解 
到 的 ， 那 一 年 他 正在 和 雅克 布 斯 博士 刚刚 创立 起 他 们 的 第 二 家 公司 一 
高 通 公司 (1985 年 注册 ) 。 截 至 那 时 ,世界 对 他 的 了 解 还 仅仅 在 学 术 界 ， 
具体 来 说 是 通信 界 和 计算 机 算法 领域 。 我 第 一 次 使 用 这 个 算法 是 1991 年 
从 事 语音 识别 研究 的 时 候 ， 那 一 年 高 通 公司 已 经 提出 和 完善 了 今天 3G 通 
信 的 基础 一 CDMA 的 各 项 协议 。 而 1997 年 夏天 ， 我 在 约翰 . 霍 普 金 
斯 大 学 第 一 次 见 到 维特 比 博士 时 ， 他 已 经 是 名 满 天 下 的 通信 工业 界 巨子 
了 。 那 年 他 作为 CLSP 的 顾问 来 参加 年 会 ， 听 我 们 介绍 在 CLSP 的 工作 。 
他 最 关心 的 是 语音 识别 的 商业 前 景 ,今天 他 可 以 看 到 了 。 
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图 26.1 科学 家 和 商业 巨子 维特 比 


维特 比 博士 是 美 籍 意大利 犹太 移民 ， 他 原名 叫 Andrea Viterbi， 但 是 
Andrea 这 个 名 字 在 英语 里 是 个 女孩 子 的 名 字 ， 因 此 他 把 自己 的 名 字 改 
成 安德鲁 ( Andrew ) 。 从 他 在 麻 省 理工 学 院 毕业 到 他 33 岁 以 前 ， 维 特 
比 的 职业 生涯 完全 局 限 在 学 术 界 。 他 先后 在 著名 的 国防 工业 公司 雷神 
( Raytheon ) 、 美 国 著名 的 喷气 推进 实验 室 ( JPL ) 担任 工程 师 ， 同 时 在 
南 加 州 大 学 ( University of Southern California ) 完成 了 博士 学 位 。 之 后 
在 加 州 大 学 ( 洛杉矶 和 圣地 亚 哥 两 个 分 校 ) 担任 教 职 ， 从 事 刚 刚 兴起 的 
学 科 一 数字 通信 的 研究 ， 几 年 后 的 1967 年 ， 他 发 明了 维特 比 算法 。 


言 归 正 传 ， 现 在 让 我 们 看 看 作为 科学 家 的 维特 比 得 以 成 名 的 算法 。 维 特 比 
算法 是 一 个 特殊 但 应 用 最 广 的 动态 规划 算法 ( 见 前 面相 应 的 章节 ) 。 利 用 
动态 规划 ， 可 以 解决 任何 一 个 图 中 的 最 短路 径 问 题 。 而 维特 比 算法 是 针对 
一 个 特殊 的 图 一 篱 秃 网 络 的 有 向 图 ( Lattice ) 的 最 短路 径 问题 而 提出 的 。 
它 之 所 以 重要 ， 是 因为 凡是 使 用 隐 含 马尔 可 夫 模型 描述 的 问题 都 可 以 用 它 
来 解码 ， 包 括 今天 的 数字 通信 、 语 音 识别 、 机 器 翻译 、 拼 音 转 汉字 、 分 词 
等 。 下 面 还 是 拿 大 家 用 得 最 多 的 输入 法 拼音 转 汉 字 来 说 明 。 


假定 用 户 ( 盲 打 时 ) 输 入 的 拼音 是 ,72,…,Yw , 对 应 的 汉字 是 xxz,…,xw( 虽 
然 真 正 的 输入 法 产品 都 是 以 词 作为 输入 单位 的 ， 但 是 为 了 便于 说 明 问 题 简 
单 起 见 ， 以 字 为 单位 来 解释 维特 比 算法 ) ， 那 么 根据 前 面 介绍 的 工具 : 
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XxX2, KN = ArEMax P(x Xz XN |Y py» YN) 
x 


= AreMax [ PGilx) PGilxi) (26.1) 


i=1 


输入 的 (可见 ) 序列 为 y ,yz,…,yw， 而 产生 它们 的 隐 含 序列 是 Xx1,xz, …, xXw。 
可 以 用 下 图 描述 这 样 一 个 过 程 : 


26.2 ”适用 维特 比 算法 的 隐 含 马尔 可 夫 模 型 


这 是 一 个 没有 状态 跳 路 ,也 没有 状态 自 环 的 相对 简单 的 隐 含 马尔 可 夫 链 。 
P(xilxi-1) 是 状态 之 间 的 转移 概率 , POyilxi) 是 每 个 状态 的 产生 概率 。 现在， 
这 个 马尔 可 夫 链 的 每 个 状态 的 输出 是 固定 的 ， 但 是 每 个 状态 的 值 可 以 变 
化 。 比 如 输出 读音 “zhong” 的 字 可 以 是 “中 ”、“ 种 ”等 多 个 字 。 我 们 
不 妨 抽 象 一 点 ， 用 符号 x 表示 状态 x 的 第 j 个 可 能 的 值 。 如 果 把 每 个 状 
态 按照 不 同 的 值 展开 ， 就 得 到 下 面 这 个 篇 钨 网 络 ( Lattice ) : 


26.3 ”篇 多 网 络 
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在 上 图 中 , 每 个 状态 有 3 个 或 4 个 值 ， 当 然 实 际 中 它们 可 以 有 任意 个 值 。 


那么 从 第 一 个 状态 到 最 后 一 个 状态 的 任何 一 条 路 径 ( path ) 都 可 能 产生 
我 们 观察 到 的 输出 序列 Y。 当 然 ， 这 些 路 径 的 可 能 性 不 一 样 ， 而 我 们 要 做 
的 就 是 找到 最 可 能 的 这 条 路 径 。 对 于 每 一 条 给 定 的 路 径 ， 可 以 使 用 公式 
(26.1 ) 计算 出 它 的 可 能 性 ， 这 不 是 件 困难 的 事情 。 但 麻烦 的 是 这 样 的 路 
径 组 合 数 非常 多 ， 它 使 得 序列 状态 数 的 增长 呈 指 数 爆炸 式 。 汉 语 中 每 个 
无 声调 的 拼音 对 应 13 个 左右 的 国标 汉字 ， 假 定 句 长 为 10 个 字 ， 那 么 这 
个 组 合 数 为 13"~5 x 10“。 假 定 计算 每 条 路 径 概率 需要 20 次 乘法 (或 者 
加 法 ， 如 果 程 序 设计 者 足够 聪明 的 话 ) ， 就 是 10" 次 计算 。 而 今天 的 微 
机 处 理 器 每 秒 大 约 能 计算 10" 次 ， 也 需要 大 约 一 天 时 间 。 而 在 通信 或 语 
音 识别 中 , 每 说 一 句 话 的 状态 数 是 成 千 上 万 ， 上面 的 穷 举 法 显然 不 合适 。 
因此 ， 需 要 一 个 最 好 能 和 状态 数目 成 正比 的 算法 。 而 这 个 算法 是 维特 比 
在 1967 年 首次 提出 的 ， 因 此 就 被 命名 为 维特 比 算法 。 


维特 比 算法 的 基础 可 以 概括 成 下 面 三 点 : 


1， 如 果 概 率 最 大 的 路 径 P (或 者 说 最 短路 径 ) 经 过 某 个 点 ， 比 如 图 
中 的 x22， 那 么 这 条 路 径 上 从 起 始点 5 到 xzz 的 这 一 段子 路 径 Q， 一定 
是 5 到 x22 之 间 的 最 短路 径 。 否 则 ， 用 5 到 xzz 的 最 短路 径 R 震 代 Q， 便 
构成 了 一 条 比 P 更 短 的 路 径 ， 这 显然 是 矛盾 的 。 


2. 从 S 到 巨 的 路 径 必定 经 过 第 i 时 刻 的 某 个 状态 ( 这 显然 是 大 白话 ， 
但 是 很 关键 ) ， 假 定 第 ;时 刻 有 Kk 个 状态 ， 那 么 如 果 记 录 了 从 3 到 第 
i 个 状态 的 所 有 k 个 节点 的 最 短路 径 ， 最 终 的 最 短路 径 必 经 过 其 中 的 
一 条 。 这 样 ， 在 任何 时 刻 ， 只 要 考虑 非常 有 限 条 最 短路 径 即 可 。 
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图 26.4 ”从 起 点 到 终点 的 路 径 必定 经 过 第 i 时刻 的 某 个 状态 


3， 结合 上 述 两 点 ， 假 定 当 我 们 从 状态 i 进入 状态 i+ 1 时， 从 5 到 状 
态 i 上 各 个 节点 的 最 短路 径 已 经 找到 ， 并 且 记 录 在 这 些 节 点 上 ， 那 么 
在 计算 从 起 点 5 到 第 i+ 1 状态 的 某 个 节点 x+i 的 最 短路 径 时 ， 只 要 考 
虚 从 5 到 前 一 个 状态 i 所 有 的 k 个 节点 的 最 短路 径 ， 以 及 从 这 k 个 节点 
到 xivi, j 的 距离 即 可 。 


基于 上 述 三 点 基础 ， 维 特 比 总 结 了 如 下 的 算法 : 


第 一 步 ， 从 点 8 出 发 ， 对 于 第 一 个 状态 六 的 各 个 节点 ， 不 妨 假定 有 m 个 ， 
计算 出 $ 到 它们 的 距离 d(S,xaD) ， 其 中 xxt 代 表 任意 状态 1 的 节点 。 因 为 只 
有 一 步 ， 所 以 这 些 距离 都 是 S 到 它们 各 自 的 最 短 距 离 。 


第 二 步 ， 这 是 理解 整个 算法 的 关键 。 对 于 第 二 个 状态 如 的 所 有 节点 ， 要 
计算 出 从 $ 到 它们 的 最 短 距 离 。 我 们 知道 ， 对 于 特定 的 节点 zt， 从 3 到 
它 的 路 径 可 以 经 过 状态 1 的 nm 中 任何 一 个 节点 xit， 当 然 ， 对 应 的 路 径 长 
度 就 是 d(S,xzt) = d(S,xyj) + d(xyj,xzt)。 由 于 j 有 nm 种 可 能 性 ， 我 们 要 
一 一 计算 ,然后 找到 最 小 值 。 即 


d(S,x2t) = minr=ama d(S,x1) + d(x x20) (26.2) 
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这 样 对 于 第 二 个 状态 的 每 个 节点 ， 需 要 mm 次 乘法 计算 。 假 定 这 个 状态 有 
ma2 个 节点， 把 3 这 些 节 点 的 距离 都 算 一 遍 ， 就 有 0(ni no) 次 计算 。 


接 下 来 ， 类 似 地 按照 上 述 方法 从 第 二 个 状态 走 到 第 三 个 状态 ， 一 直 走 到 
最 后 一 个 状态 ， 就 得 到 了 整个 网 格 从 头 到 尾 的 最 短路 径 。 每 一 步 计算 的 
复杂 度 都 和 相 邻 两 个 状态 Si 和 Sirs 各 自 的 节点 数目 mi，niri 的 乘积 成 正 
比 ， 即 0(mi* niw1)。 如 果 假 定 在 这 个 隐 含 马尔 可 夫 链 中 节点 最 多 的 状态 有 
D 个 节点 ， 也 就 是 说 整个 网 格 的 宽度 为 ， 那 么 任何 一 步 的 复杂 度 不 超过 
0(D*)， 由 于 网 格 长 度 是 N， 所 以 整个 维特 比 算法 的 复杂 度 是 O(N . D?)。 


回 到 上 面 那个 输入 法 的 问题 ， 计 算 量 基本 上 是 13 x 13 x 10 = 1690 = 10?， 
这 和 原来 的 10 “有 天 壤 之 别 。 更 重要 的 是 , 维特 比 算法 是 和 长 度 成 正比 的 。 
无 论 是 在 通信 中 , 还 是 在 语音 识别 、 打 字 中 ,输入 都 是 按照 流 ( Stream ) 
的 方式 进行 的 ， 只 要 在 处 理 每 个 状态 的 时 间 比 讲话 或 者 打字 速度 快 ( 这 
点 很 容易 做 到 ) ， 那 么 不 论 输 入 有 多 长 ， 解 码 过 程 永远 是 实时 的 。 这 便 
是 数学 漂亮 的 地 方 ! 


虽然 数字 通信 和 自然 语言 处 理 的 基础 算法 的 原理 其 实 就 是 这 么 简单 ， 每 
个 通信 或 者 计算 机 专业 的 学 生 两 个 小 时 就 能 学 会 ， 但 是 在 上 个 世纪 60 
年 代 能 够 想 出 这 个 快速 算法 是 非常 了 不 起 的 。 赁 借 这 个 算法 ， 维 特 比 葛 
定 了 他 在 数字 通信 中 不 可 替代 的 地 位 。 但 是 ， 维 特 比 并 不 满足 停留 在 算 
法 本 身 ， 而 是 努力 将 它 推广 出 去 。 维 特 比 为 此 做 了 两 件 事 : 首先 ， 他 放 
弃 了 这 个 算法 的 专利 ; 第 二 ， 他 和 雅克 布 斯 博士 一 起 在 1968 年 创办 了 
Linkabit 公司 ， 将 这 个 算法 做 成 芯片 ， 卖 给 其 他 通信 公司 。 


到 这 一 步 维特 比 已 经 比 一 般 的 科学 家 走 得 远 很 多 了 。 但 是 ， 这 仅仅 是 维 
特 比 辉煌 人 生 的 第 一 步 。 上 个 世纪 80 年 代 ， 维 特 比 致力 于 将 CDMA 技 
术 应 用 于 无 线 通信 。 
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2 CDMA 技术 一 3G 移动 通信 的 基础 


自从 苹果 推出 iPhone，3G 手机 和 移动 互联 网 就 成 为 科技 界 和 工业 界 的 
热点 话题 。 这 里 面 最 关键 的 通信 技术 就 是 码 分 多 址 ( CDMA ) 技术 。 对 
CDMA 技术 的 发 明和 普及 贡献 最 大 的 有 两 个 人 一 奥 匈 帝国 出 生 、 美 籍 
犹太 裔 的 海 蒂 ， 拉 玛 尔 ( Hedy Lamarr ) 和 维特 比 。 


tr 


图 26.5 海 蒂 . 拉 玛 尔 


拉 玛 尔 被 誉 为 史上 最 美丽 的 科学 家 ， 其 实 她 的 主要 职业 是 演员 ， 通 信 上 
调频 技术 的 发 明 是 她 的 副业 。 拉 玛 尔 从 小 ( 10 岁 ) 学 习 舞 蹈 和 钢琴 ， 
并 因此 进入 了 演艺 界 。 拉 玛 尔 在 演奏 钢琴 时 ， 想 到 用 钢琴 不 同 键 所 发 出 
的 不 同 频 率 来 对 信号 进行 加 密 。 如 果 接 收 者 知道 调频 的 序列 就 可 以 解码 
收 到 的 信号 ， 如 果 不 知道 这 个 序列 ， 就 无 法 破解 。 这 就 像 如 果 你 听 过 并 
记得 肖邦 的 “英雄 波兰 舞曲 ”， 你 就 知道 演奏 的 是 什么 ， 否 则 就 是 一 些 
凌乱 的 音符 而 已 。 拉 玛 尔 和 她 的 邻居 、 作 曲 家 乔治 * 安泰 尔 ( George 
Antheil ) 一 道 发 明了 一 种 称 为 “保密 通信 系统 ”的 调频 通信 技术 。 在 这 
种 技术 中 ， 通 信 信 号 的 载波 频率 是 快速 跳 变 的 ， 只 要 发 送 方 和 接收 方 事 
先 约定 一 个 序列 ( 一 般 是 一 个 伪 随 机 数 序 列 ) 即 可 。 想 截获 信息 的 人 因 
为 不 知道 这 个 序列 而 无 能 为 力 。 拉 玛 尔 最 早 是 采用 钢琴 的 88 个 键 的 频率 
做 载波 频率 ， 将 约定 好 的 调频 序列 做 在 钢琴 卷 ( Piano Roll) 上， 然后 
载波 频率 根据 钢琴 卷 上 的 打 孔 位 置 而 变化 。 


和 
钢 全 卷 是 一 个 自动 
控制 钢琴 演奏 的 纸 
卷 ， 像 早期 计算 机 
使 用 的 纸 带 。 上 面 
打 了 眼 ， 表 示 不 同 
的 音符 ， 读 卷 机 可 
以 因此 知道 音符 ， 
并 控制 网 琴 。 这 有 
点 像 今天 的 MIDI 
的 钢 本 自动 演奏 器 。 
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这 种 调频 技术 是 今天 的 CDMA 的 前 身 ， 它 于 1941 年 获得 美国 专利 。 美 国 
海军 曾经 想 用 这 项 技术 实现 一 个 敌人 无 法 发 现 的 无 线 电 控制 的 鱼雷 ， 但 是 
因为 有 反对 意见 暂时 搁 起 。 很 快 二 战 就 结束 了 ， 直 到 1962 年 都 没有 实现 
这 项 技术 。 越 战 期 间 ， 越 南 军 方 发 现 被 击落 的 美国 飞行 员 可 以 通过 一 种 检 
查 不 出 频率 的 设备 呼救 。 他 们 缴获 这 种 设备 后 ， 搞 不 清 它 的 原理 ， 也 不 知 
道 如 何 能 破获 它 产生 的 信号 , 于 是 他 们 把 这 个 设备 交 给 援 越 的 中 国 顾 问 团 。 
中 国 顾问 团 里 有 一 些 通信 专家 ， 包 括 我 在 清华 大 学 的 导师 王 作 英 教 授 ， 他 
们 发 现 这 种 设备 能 以 极 低 的 功率 在 很 宽 的 频带 上 发 送 加 密 信号 。 对 于 试图 
截获 者 来 讲 ， 这 些 信号 能 量 非常 低 ， 很 难 获取 。 即 使 能 够 获得 ， 因 为 不 知 
道 密码 而 无 法 破解 。 但 是 对 于 接收 者 来 讲 ， 它 可 以 通过 把 很 低 的 能 量 积累 
起 来 获得 发 送 的 信息 ， 并 且 因 为 知道 密 钥 ， 实 现 解码 。 


这 种 传输 方式 是 在 一 个 较 宽 的 扩展 频带 上 进行 的 ， 因 此 它 称 为 扩 频 传输 
( Spread-Spectrum Transmission ) 。 和 固定 频率 的 传输 相 比 ， 它 有 三 点 
明显 的 好 处 。 


1， 它 的 抗 干扰 能 力 极 强 。 生 活 在 文革 前 后 年 代 的 人 可 能 知道 ， 过 
去 禁止 收听 外 国 的 广播 。 这 条 规矩 很 难 实施 , 因为 无 线 电波 满 天 都 是 ， 
很 容易 收听 。 因 此 ， 政 府 可 以 做 的 事 就 是 用 噪音 干扰 那些 固定 的 广 
播 频率 。 但 是 对 于 扩 频 传输 ， 这 件 事 几乎 不 可 能 ， 因 为 不 能 把 所 有 
的 频带 都 干扰 了 ， 这 样 整 个 国家 的 通信 就 中 断 了 。 


2.， 扩 频传 输 的 信号 很 难 被 截获 ， 这 点 前 面 已 经 讲 了 。 


3， 扩 频传 输 利 用 带宽 更 充分 。 这 一 点 详细 解释 起 来 有 点 哪 嘻 ， 简 
单 地 讲 就 是 固定 频率 的 通信 由 于 邻近 的 频率 互相 和 干扰， 载波 频率 的 
频 点 不 能 分 布 得 太 密集 ， 两 个 频 点 之 间 的 频带 就 浪费 了 。 扩 频 通信 
由 于 抗 干扰 能 力 强 ， 浪 费 的 频带 较 少 。 


虽然 扩 频 技术 和 调频 技术 早 在 上 个 世纪 60 年 代 就 应 用 于 军事 ， 但 是 转 为 
民用 则 是 上 个 世纪 80 年 代 以 后 的 事情 。 这 首先 要 归功 于 移动 通信 的 需求 。 
上 个 世纪 80 年 代 ， 移 动 通信 开始 快速 发 展 ， 很 快 大 家 发 现 空中 的 频带 不 
够 用 了 ， 需 要 采用 新 的 通信 技术 。 其 次 ， 具体 到 CDMA 本 身 ， 很 大 程度 
上 归功 于 维特 比 的 贡献 。 
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在 CDMA 以 前 ， 移 动 通信 使 用 过 两 种 技术 : 频 分 多 址 ( FDMA ) 和 时 分 
多 址 (TDMA ) 技术 。 


频 分 多 址 顾名思义 , 是 对 频率 进行 切 分 , 每 一 路 通信 使 用 一 个 不 同 的 频率 ， 
对 讲 机 采用 的 就 是 这 个 原理 。 由 于 相 邻 频 率 会 互相 干扰 ， 因 此 每 个 信道 
要 有 足够 的 带宽 。 如 果 用 户 数量 增加 ， 总 带宽 就 必须 增加 。 我 们 知道 空 
中 的 频带 资源 是 有 限 的 , 因此 要 么 必须 限制 通信 人 数 ,要 么 降低 话音 质量 。 


时 分 多 址 是 将 同一 频带 按时 间 分 成 很 多 份 。 每 个 人 的 (语音 ) 通信 数据 
在 压缩 后 只 占用 这 个 频带 传输 的 1 /N 时 间 ， 这 样 同一 个 频带 可 以 被 多 个 
人 同时 使 用 。 第 二 代 移 动 通信 的 标准 都 是 基于 TDMA 的 。 


前 面 讲 了 ， 扩 频传 输 对 频带 的 利用 率 比 固定 频率 传输 更 高 ， 因 此 ， 如 果 
把 很 多 细 分 的 频带 合 在 一 起 ， 很 多 路 信息 同时 传输 ， 那 么 应 该 可 以 提高 
带宽 的 利用 率 ， 这 样 就 可 以 增加 用 户 的 数量 ， 或 者 当 用 户 数量 不 变 时 ， 
提高 每 个 用 户 的 传输 速度 。 


美国 的 两 个 主要 无 线 运营 商 AT&T 和 Verizon， 前 者 的 基站 密度 不 比 
后 者 低 ， 信 号 强度 也 不 比 后 者 差 ， 但 是 通话 质量 和 数据 传输 速度 却 明 
显 不 如 后 者 ， 原 因 就 是 AT&T 网 络 总 的 来 讲 是 继承 过 去 TDMA 的 ， 而 
Verizon 则 完全 是 基于 CDMA 的 。 


FDMA TDMA CDMA 


26.6 ” 频 分 多 址 ( FDMA )、 时 分 多 址 ( TDMA ) 和 码 分 多 址 ( CDMA ) 对 频带 和 时 间 的 利用 率 ， 
图 中 深 色 的 部 分 有 可 利用 部 分 ， 边 界 无 色 的 部 分 为 不 可 利用 部 分 。 
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当然 ， 读 者 可 能 会 有 个 问题 : 如 果 一 个 发 送 者 占用 了 很 多 频带 ， 那 么 有 
多 个 发 送 者 同时 发 射 岂 不 打架 了 ? 没关系 ， 每 个 发 送 者 有 自己 不 同 的 密 
码 ， 接 收 者 在 接 到 不 同 信号 时 ， 通 过 密码 过 滤 掉 自己 无 法 解码 的 信和 号， 
留 下 和 自己 密码 对 应 的 信号 即 可 。 由 于 这 种 方法 是 根据 不 同 的 密码 区 分 
发 送 的 ， 因 此 称 为 码 分 多 址 。 


将 CDMA 技术 用 于 移动 通信 的 是 高 通 公司 。 从 1985 年 到 1995 年 ， 高 通 公 
司 制定 和 完善 了 CDMA 的 通信 标准 CDMA1， 并 于 2000 年 发 布 了 世界 上 
第 一 个 主导 行业 的 3G 通信 标准 CDMA2000， 后 来 又 和 欧洲 、 日 本 的 通信 
公司 一 同 制定 了 世界 上 第 二 个 3G 标准 WCDMA。2007 年 ， 维 特 比 作为 数 
学 家 和 计算 机 科学 家 ， 被 授予 美国 科技 界 最 高 成 就 奖 一 国家 科学 奖 ?。 


图 26.7 小 布什 总 统 授予 维特 比 博士 国家 科学 奖 


或 许 是 因为 维特 比 极 强 的 技术 背景 ， 高 通 公司 完全 是 纯 技术 基因 。 虽 然 
高 通 公司 是 今天 世界 上 最 大 的 3G 手机 处 理 器 厂商 ,但 是 它 没有 制造 ， 只 
有 研发 和 设计 。 而 它 的 很 大 一 部 分 利润 来 自 于 专利 费 。 或 许 是 由 于 过 分 
强调 技术 ， 它 在 第 二 代 移动 通信 的 竞争 中 ， 输 给 了 欧洲 的 公司 ， 因 为 那 
时 快速 数据 传输 对 移动 用 户 来 讲 不 是 最 必需 的 需求 。 但 是 ， 高 通 技术 上 
的 优势 保证 了 它 对 第 三 代 移 动 通信 的 统治 地 位 。 


如 果 把 维特 比 算 作 数学 家 中 的 一 员 ， 那 么 他 也 许 是 全 世界 有 史 以 来 第 三 
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定 有 的 数学 家 ( 第 一 富有 的 无 疑 是 文艺 复兴 技术 公司 的 创始 人 吉姆 赛 

家 斯)。 纹 特 比 是 南 吉 州 大 学 最 大 的 资助 者 之 一 ?该 人 的 工学 院 也 是 以 2 
特 比 向 

他 的 名 字 命名 的 。 他 的 财富 米 自 于 他 将 技术 转换 成 商业 的 成 功 。 ep 


美元 。 


VEITERBI 
$CHOC 
ENGINE 


图 26.8 ” 南 加 州 大 学 的 维特 比 工学 院 


3 小 结 


世界 上 绝 大 多 数 科学 家 最 大 的 满足 就 是 自己 的 研究 成 果 得 到 同行 的 认可 ， 
如 果 能 有 应 用 就 更 是 喜出望外 了 。 而 能 够 亲自 将 这 些 成 就 应 用 到 实际 中 
的 人 少 之 又 少 ， 因 为 做 到 这 一 点 对 科学 家 来 讲 很 不 容易 。 这 样 的 科学 家 
包括 RISC 的 发 明 人 享 利 西 和 DSL 之 父 查 菲 等 人 。 这 些 人 已 经 非常 了 不 
起 了 ,但 是 也 只 做 了 一 个 行业 中 他 们 擅长 的 部 分 ， 而 不 是 从 头 到 尾 完成 
一 次 革命 。 而 维特 比 所 做 的 远 远 超出 了 这 一 点 ， 他 不 仅 提供 了 关键 性 的 
发 明 ， 而 且 为 了 保障 这 项 关键 性 的 发 明 的 效益 在 全 社会 得 到 最 大 化 ， 他 
解决 了 所 有 配套 的 技术 。 所 有 试图 另辟蹊径 的 公司 都 发 现 ， 高 通 公司 的 
标准 几乎 无 法 绕 过 去 ， 因 为 他 们 已 经 把 能 想到 的 事情 都 想到 了 。 
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第 27 章 再 谈 文 本 自动 分 类 问题 
一 期 望 最 大 化 算法 


前 面 的 章节 已 经 多 次 讨论 到 文本 自动 分 类 问题 ， 一 方面 是 因为 今天 互联 
网 的 各 种 产品 和 应 用 都 需要 用 到 这 个 技术 ， 另 一 方面 ， 这 个 技术 可 以 
用 到 几乎 所 有 分 类 中 ， 比 如 用 户 的 分 类 、 词 的 分 类 、 商 品 的 分 类 ， 甚 
至 生物 特征 和 基因 的 分 类 ， 等 等 。 这 一 章 再 介绍 一 些 文本 自动 分 类 的 技 
术 ， 并 借 此 说 明 在 机 器 学 习 中 最 重要 的 一 个 方法 一 期 望 最 大 化 算法 
( Expectation Maximization Algorithm )。 这 个 算法 ,我 称 之 为 上 帝 的 算法 。 


1 文本 的 自 收 敛 分 类 


关于 文本 TF-IDF 向 量 的 计算 和 余弦 距离 的 计算 就 不 再 重复 了 ， 在 分 类 
中 依然 用 这 个 特征 来 度量 。 和 前 面 章节 介绍 的 方法 不 同 的 是 ， 这 里 既 不 
需要 事先 设 定好 类 别 ， 也 不 需要 对 文本 两 两 比较 进行 合并 聚 类 。 而 是 随 
机 地 挑 出 一 些 类 的 中 心 (Centroids ) ， 然 后 来 优化 这 些 中 心 ， 使 它们 和 
真实 的 聚 类 中 心 尽 可 能 一 致 


这 种 自 收敛 的 分 类 说 起 来 很 简单 。 假 设 有 N 篇 文本 ， 对 应 N 个 向 量 
六 ,V2,…,Vw， 希 望 把 它们 分 到 K 类 中 ， 而 这 KK 类 的 中 心 是 ccz, ck。 无 
论 是 这 些 向 量 ， 还 是 中 心 ， 都 可 以 看 成 是 空间 中 的 点 。 当 然 下 可 以 是 一 
个 固定 的 数 ， 比 如 我 们 认为 文本 的 主题 只 有 100 类 ; 也 可 以 是 一 个 不 定 
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的 数 ， 比 如 我 们 并 不 知道 文本 的 主题 有 多 少 类 ， 最 终 有 多 少 类 就 分 成 多 
少 类 。 分 类 的 步骤 如 下 : 


1. 估 机 挑选 K 个 点 ， 作 为 起 始 的 中 心 cx(0),c2(0),…,cx(0)， 如 图 
27.1 中 各 个 点 属于 三 个 类 , 我 们 用 黑 十 字 代 表 随 机 指定 的 类 的 中 心 。 


中 
S 
各 呈 于 
。 
Bd 加 本 
如 由 人 
bd 
中 


27.1 三 个 类 的 自动 分 类 


2， 计 算 所 有 点 到 这 些 聚 类 中 心 的 距离 ， 将 这 些 点 归 到 最 近 的 一 类 


中 。 如 下 图 : 
。 Wi 第 ! 类 
a 
向 二 
号 人 
we ~ bg 人 二 第 类 
es 
中 第 3 类 


图 27.2 根据 中 心 对 每 个 点 重新 分 类 ， 并 计算 新 的 中 心 
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3 重新 计算 每 一 类 的 中 心 。 假 定 某 一 类 中 的 ， 每 一 个 点 有 多 个 维 
度 ， 即 


D1 三 Vi Viz Did 


D2 = Vay Daz，…yDad 


VM= Vm Vm2, ,Vmd 


最 简单 的 办 法 就 是 用 这 些 类 的 中 心 w = wi,wz,…,wm 作为 其 中 心 ， 其 
中 第 i 维 的 值 计 算 如 下 : 
po Viitv2it. tvmi (27.1) 

m 
新 的 聚 类 中 心 和 原先 的 相 比 会 有 一 个 位 移 ， 图 27.2 中 用 箭头 表示 了 
中 心 的 移动 。 箭 头 指 向 处 为 新 的 聚 类 中 心 。 


4， 重复 上 述 过 程 ， 直 到 每 次 新 的 中 心 和 旧 的 中 心 之 间 偏 移 非常 非 
常 小 ， 即 过 程 收敛 。 


第 2 类 


第 3 类 
273 ”第 二 次 迭代 后 的 结果 
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图 27.4 ”第 三 次 迭代 后 ， 基 本 已 经 收敛 


上 面 这 个 例子 是 我 随机 产生 的 ， 大 家 从 这 几 张 图 可 以 看 出 ， 聚 类 的 过 程 
经 过 几 次 迭代 就 可 以 收敛 了 。 这 个 方法 不 需要 任何 人 工 干预 和 先 验 的 经 
验 (Prior Experience ) ， 是 一 些 纯粹 的 数学 计算 ， 最 后 就 完全 得 到 了 自 
动 的 分 类 。 这 简直 有 点 令 人 难以 置信 ， 读 者 可 能 会 问 这 样 做 是 否 就 能 保 
证 将 距离 近 的 点 聚集 在 一 起 ? 如 果 能 ， 为 什么 ? 


2 延伸 阅读 : 期 望 最 大 化 和 收敛 的 必然 性 


读者 背景 知识 : 机 器 学 习 或 者 模式 分 类 。 


首先 要 明确 一 点 ， 就 是 我 们 的 距离 函数 足够 好 ， 它 能 保证 同一 类 相对 距 
离 较 近 ， 而 不 同类 的 相对 距离 较 远 。 我 们 希望 最 终 的 分 类 结果 是 : 相近 
的 点 都 被 聚集 到 了 一 类 中 ， 这 样 同一 类 中 各 个 点 到 中 心 的 平均 距离 d 较 
近 ， 而 不 同类 中 心 之 间 的 平均 距离 D 较 远 。 我 们 希望 的 迭代 过 程 是 每 一 
次 迭代 时 ，d 比 以 前 变 小 ,而 D 变 大 。 


假定 第 1 类 到 第 K 类 中 分 别 有 n,n2,…,nw 个 点 ， 每 一 类 中 ， 点 到 中 心 的 
平均 距离 是 di,dz,…,dk ， 因 此 d= (ndi+nzdz+… 二 We* dx)/Jk 。 继 
D, 
续 假定 第 i 类 和 第 j 类 中 心 之 间 的 距离 是 Dij， 那么 D=》 KK 。 如 果 
U 
考虑 到 不 同类 的 大 小 ， 即 点 的 数量 ， 那 么 D 加 权 平均 的 公式 应 该 是 
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D 
了 -Za C27 
假定 有 一 个 点 x， 它 在 前 一 次 迭代 中 属于 第 i 类 ， 但 是 在 下 一 次 和 迭代 中 ， 
它 和 第 j 类 距离 更 近 ， 根 据 我 们 的 算法 ， 它 将 被 安排 到 第 j 类 中 。 不 难 证 
明 dG+1l <dG ， 同 时 DG+1lD >DGO。 


好 了 ， 知道 了 每 一 步 迭 代 后 ， 我 们 都 离 目 标 ( 最 佳 分 类 ) 更 近 了 一 步 ， 
直到 最 终 达 到 最 佳 分 类 。 


可 以 把 上 面 的 思想 扩展 到 更 一 般 的 机 器 学 习 问 题 中 。 上 述 算法 实际 上 包 
含 两 个 过 程 和 一 组 目标 函数 。 这 两 个 过 程 是 : 


1， 根 据 现 有 的 聚 类 结果 ， 对 所 有 数据 ( 点 ) 重新 进行 划分 。 如 果 
把 最 终 得 到 的 分 类 结果 看 作 是 一 个 数学 的 模型 ， 那 么 这 些 聚 类 的 中 
心 ( 值 ) ， 以 及 每 一 个 点 和 聚 类 的 隶属 关系 ， 可 以 看 成 是 这 个 模型 
的 参数 。 


2， 根 据 重新 划分 的 结果 ， 得 到 新 的 聚 类 。 


而 目标 函数 就 是 上 面 的 点 到 带 类 的 距离 d 和 诊 类 之 间 的 距离 D， 整 个 过 程 
就 是 要 最 大 化 目标 函数 。 


在 一 般 性 的 问题 中 ， 如 果 有 非常 多 的 观测 数据 ( 点 ) ， 类 似 上 面 的 方 
法 ， 让 计算 机 不 断 迭 代 来 学 习 一 个 模型 。 首 先 ， 根据 现 有 的 模型 ， 计 算 
各 个 观测 数据 输入 到 模型 中 的 计算 结果 ， 这 个 过 程 称 为 期 望 值 计算 过 程 
( Expectation ) ,或 E 过 程 ; 接 下 来 ， 重 新 计算 模型 参数 ， 以 最 大 化 期 
望 值 。 在 上 面 的 例子 中 ,我 们 最 大 化 D 和 一 d ， 这 个 过 程 称 为 最 大 化 的 过 
程 (Maximization ) ,或 M 过 程 。 这 一 类 算法 都 称 为 EM 算法 。 


前 面 介 绍 过 的 很 多 算法 ， 其 实 都 是 EM 算法 。 比 如 隐 含 马尔 可 夫 模 型 的 
训练 方法 Baum- Welch 算法 ,以 及 最 大 人 模 型 的 训练 方法 GIS 算法 。 在 
Baum- Welch 算法 中 ，E 过 程 就 是 根据 现 有 的 模型 计算 每 个 状态 之 间 转 
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移 的 次 数 ( 可 以 是 分 数值 ) 以 及 每 个 状态 产生 它们 输出 的 次 数 ，M 过 程 
就 是 根据 这 些 次 数 重新 估计 隐 含 马尔 可 夫 模型 的 参数 。 这 里 最 大 化 的 目 
标 函 数 就 是 观测 值 的 概率 。 在 最 大 炳 模型 的 通用 和 迭代 算法 GIS 中 , E 过 
程 就 是 跟着 现 有 的 模型 计算 每 一 个 特征 的 数学 期 望 值 ，M 过 程 就 是 根据 
这 些 特 征 的 数学 期 望 值 和 实际 观测 值 的 比值 ， 调 整 模型 参数 。 这 里 ， 最 
大 化 的 目标 函数 是 炉 函 数 。 


最 后 还 要 讨论 一 点 ， 就 是 EM 算法 是 否 一 定 能 保证 获得 全 局 最 优 解 ? 如 
果 我 们 优化 的 目标 函数 是 一 个 凸 函 数 , 那么 一 定 能 保证 得 到 全 局 最 优 解 。 
所 幸 的 是 我 们 的 炉 函 数 是 一 个 凸 函 数 ， 如 果 在 N 维 空间 以 欧 氏 距离 做 度 
量 , 聚 类 中 我 们 试图 优化 的 两 个 函数 也 是 凸 函数 。 但 是 , 对 应 的 很 多 情况 ， 
包括 文本 分 类 中 的 余弦 距离 都 不 保证 是 凸 函数 ， 因 此 有 可 能 EM 算法 给 
出 的 是 局 部 最 佳 解 而 非 全 局 最 佳 解 。 


图 27.5 疏 到 了 山顶 ， 那 个 山头 好 像 更 高 ， 可 是 我 已 经 找 不 到 向 上 的 路 了 


3 小 结 


EM 算法 只 需要 有 一 些 训练 数据 ， 定 义 一 个 最 大 化 函数 ， 剩 下 的 事情 就 
交 给 计算 机 了 。 经 过 若干 次 迭代 ， 我 们 需要 的 模型 就 训练 好 了 。- 这 实在 
是 太美 妙 了 , 这 也 许 是 造物 主 刻 意 安排 的 。 所 以 我 把 它 称 作 上 帝 的 算法 。 


第 28 章 逻辑 回归 和 搜索 广告 


搜索 广告 之 所 以 比 传统 的 在 线 展示 广告 ( Display Ads ) 赚钱 多 很 多 , 除了 
搜索 者 的 意图 明确 外 ， 更 重要 的 是 靠 预测 用 户 可 能 会 点 击 哪 些 广告 ， 来 
决定 在 搜索 结果 页 中 插 人 哪些 广告 。 


1 搜索 广告 的 发 展 


搜索 广告 基本 上 走 过 了 三 个 阶段 。 第 一 个 阶段 是 以 早期 Overture 和 百度 
的 广告 系统 为 代表 , 按 广告 主 出 价 高 低 来 排名 的 竞价 排名 广告 。 简 单 地 说 ， 
就 是 谁 给 钱 多 ,就 优先 展示 谁 的 广告 。 为 了 支持 这 种 做 法 ,雅虎 还 给 出 了 
一 个 假设 ,出 得 起 价钱 的 公司 一 定 是 好 公司 ,因此 不 会 伤害 用 户 体验 。 但 
是 这 个 假设 等 同 于 好 货 一 定 能 淘汰 劣 货 ， 事实 并 非 如 此 ， 出 得 起 价钱 的 
公司 常常 是 卖 假 药 的 公司 ， 因 为 它们 获 利 最 丰 。 这 样 一 来 就 破坏 了 用 户 
体验 ， 因 此 很 快 用户 就 不 点 这 些 广 告 了 ， 久 而 久之， 所 有 的 广告 用 户 都 
不 点 了 。 如 果 这 样 持续 多 年 ， 没 有 了 点 击 量 ， 广 告 商 也 就 不 来 了 。 这 个 
行业 就 要 芋 缩 。 


事实 上 ， 这 种 看 上 去 挣 钱 多 的 方法 ， 并 没有 给 雅虎 带 来 比 Google 更 多 的 
利润 。 相 反 ， 它 的 单位 搜索 量 带 来 的 收入 〈 一 般 以 千 次 搜索 量 带 来 的 收 
人 来 衡量 ， 称 为 RPM ) 不 到 Google 的 一 半 。 而 Google 反而 不 一 定 将 出 
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价 高 的 广告 放 在 前 面 ， 而 是 预测 到 哪个 广告 可 能 被 点 击 ， 结 合 出 价 和 点 
击 率 ( Click Through Rate, 简称 CTR ) 这 两 点 来 决定 广告 的 投放 。 几 年 后 ， 
雅虎 和 百度 看 到 自身 和 Google 的 差距 ， 也 学 着 Google 的 方法 做 ， 就 是 
所 谓 的 “Panama 系统 ”和 “凤梨 系统 ”。 它们 相当 于 Google 的 第 一 个 版 本 ， 
可 以 看 作 是 搜索 广告 的 第 二 个 阶段 。 这 里 面 的 关键 技术 就 是 预测 用 户 可 
能 点 击 候选 广告 的 概率 ， 或 者 称 为 点 击 率 预 估 。 第 三 个 阶段 其 实 是 一 个 
全 局 的 进一步 优化 ， 和 这 一 章 的 主题 无 关 ， 就 不 袭 述 了 。 


点 击 率 预 估 最 好 的 办 法 ， 就 是 根据 以 前 的 经 验 值 来 预测 。 比 如 对 特定 的 
查询 ,广告 A 展示 了 1000 次 ， 被 点 击 18 次 ,广告 B 展示 1200 次 ， 被 
点 击 30 次 ， 那 么 它们 的 点 击 率 分 别 为 1.8% 和 2.5%。 这 样 一 来 ， 如 果 两 
个 广告 出 价 相当 ， 优 先 展示 广告 B 似乎 更 合理 些 。 


实际 问题 远 没 有 这 么 简单 。 首 先 , 这 种 办 法 对 于 新 的 广告 显然 不 合适 ， 
因为 它们 没有 被 点 击 的 历史 数据 。 第 二 ， 即 使 对 于 旧 的 广告 ， 绝 大 部 分 
时 候 ， 一 个 查询 对 应 的 特定 广告 不 过 两 三 次 的 点 击 。 这 时 候 ， 统 计 的 数 
据 严 重 不 足 ， 很 难说 被 点 了 三 次 的 就 比 被 点 了 两 次 的 好 ; 这 就 好 比 我 们 
不 能 从 楼 上 看 到 楼 下 有 三 个 女生 、 两 个 男生 ， 就 得 到 这 个 城市 的 男女 比 
例 是 2 :3 一样 。 


第 三 ， 广 告 的 点 击 量 显 然 和 它们 摆 放 的 位 置 有 关 : 放 在 第 一 条 的 广告 的 
点 击 率 理所当然 比 第 二 条 的 点 击 率 要 高 很 多 。 因 此 , 在 做 点 击 率 预 估 时 ， 
必须 消除 这 个 噪音 。 最 后 还 要 指出 ， 影 响 点 击 率 的 因素 非常 多 ， 这 些 都 
是 要 在 做 点 击 率 预 估 时 考虑 的 。 


现在 麻烦 了 ， 这么 多 因素 要 用 一 个 统一 的 数学 模型 来 描述 看 来 不 是 一 件 
容易 的 事情 。 更 何况 我 们 还 希望 这 个 模型 能 够 随 着 数据 量 的 增加 越 做 越 
准确 。 早 期 有 很 多 对 经 验 值 进行 修正 和 近似 的 做 法 ， 但 是 在 整合 各 个 特 
征 时 ， 效 果 都 不 是 很 好 。 后 来 工业 界 普遍 采用 了 逻辑 回归 模型 ( Logistic 
Regression 或 Logistic Model ) 。 
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2 ”逻辑 回归 模型 


逻辑 回归 模型 是 将 一 个 事件 出 现 的 概率 适应 到 一 条 逻辑 曲线 ( Logistic 
Curve， 其 值 域 在 (0, 1) 之 间 ) 上 。 逻 辑 曲线 是 一 条 S 型 的 曲线 ， 其 特点 
是 开始 变化 快 ， 逐 渐 减 慢 ， 最 后 饱和 。 比 如 一 个 简单 的 逻辑 回归 函数 有 
如 下 形式 


ez 1 
1 =r1 Tre (28.1) 


对 应 如 下 的 曲线 : 


A 


图 28.1 逻辑 回归 函数 的 曲线 


逻辑 自 回归 的 好 处 是 它 的 变量 的 范围 是 从 -% 到 + ， 而 值 域 范围 限制 在 
0-1 之 间 。 ( 当然 ， 由 于 z 超 出 [-6，6] 后 函数 值 基本 上 没有 变化 ， 在 应 
用 中 一 般 不 考虑 ) 我 们 知道 对 应 于 [0, 1] 之 间 的 函数 可 以 是 一 个 概率 函数 ， 
这 样 逻 辑 回归 函数 就 可 以 和 一 个 概率 分 别 联系 起 来 了 。 而 自 变量 z 的 值 
在 (-m ,+om ) 的 好 处 是 ， 它 可 以 把 这 种 信号 组 合 起 来 ， 不 论 组 合成 多 
大 或 者 多 小 的 值 ， 最 后 依然 能 得 到 一 个 概率 分 布 。 


回 到 上 述 预 估 点 击 率 的 问题 ， 假 如 有 大 个 影响 点 击 率 的 变量 ,Xx2,55, xxs 
用 线性 的 办 法 将 它们 组 合 起 来 


z=po+pBixa+poxz 十 … 十 Bkxx (28.2) 
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这 里 面 ， 每 一 个 x 被 称 为 变量 ,它们 代表 了 影响 概率 预测 的 各 种 信息 ， 
比如 广告 的 位 置 、 广 告 和 搜索 词 的 相关 性 、 广 告 展 现 的 时 间 ( 比如 晚上 
广告 的 点 击 率 会 略 高 于 下 午 ) 。 对 应 的 Bi 被 称 为 其 自 回归 参数 ， 表 示 相 
应 变量 的 重要 性 。po 是 一 个 特殊 的 参数 ， 和 任何 变量 无 关 ， 可 以 保证 在 
没有 任何 信息 时 ， 有 一 个 稳定 的 概率 分 布 。 


下 面 看 一 个 简单 的 例子 。 预 测 一 下 一 个 有 关 鲜 花 搜索 的 广告 点 击 率 。 假 
定 几 个 影响 点 击 率 的 因子 分 别 是 每 千 次 展示 的 点 击 次 数 ( 或 者 说 单位 点 
击 量 所 需要 的 展现 量 ) 、 广 告 和 搜索 的 相关 性 ( 对 应 第 二 个 变量 如 ) 、 
目标 人 群 的 性 别 ( 对 于 第 三 个 变量 Xs) 等 。 


假定 和 对 应 单位 点 击 所 需 的 展现 量 ，X2 对 应 广告 和 搜索 的 相关 性 ， 在 
0-1 之 间 , 1 为 完全 匹配 , 0 为 毫 无 关系 , Xa 对 应 性 别 , 1 为 男性 , 0 为 女性 。 


假定 对 应 的 参数 po = 5.0, Pi = 1.1, pa = -10, ps= 1.5。 


比如 搜索 关键 词 是 鲜花 ， 广 告 是 玫瑰 ， 对 应 的 变量 值 分别 为 X, = 50， 
X2 = 0.95， 用 户 为 男性 : 


那么 Z =5+1.1x50+(-10)x0.95+1.5x1=52, 那么 点 击 率 的 预 估 


P=== 0.019 = 1.9% (28.3) 


NIP 


这 里 面 的 技巧 有 两 点 。 第 一 是 如 何 选取 与 广告 点 击 相关 的 信息 ， 这 些 是 
专门 从 事 搜索 广告 的 工程 师 和 数据 挖掘 的 专家 的 工作 , 这 里 就 不 效 述 了 。 
我 们 集中 介绍 一 下 第 二 点 一 - 如 何 决 定 这 些 参数 。 


上 面 的 逻辑 回归 函数 其 实 上 是 一 个 一 层 的 人 工 神经 网 络 ， 如 果 需 要 训练 
的 参数 数量 不 多 ， 所 有 训练 人 工 神经 网 络 的 方法 都 适用 sj 但 是 ,对 于 搜 
索 广告 的 点 击 率 预 估 这 样 的 问题 ， 需 要 训练 的 参数 有 上 百 万 个 -因此 要 
求 更 有 效 的 训练 方法 。 读 者 可 能 已 经 发 现 ， 具 有 公式 ( 28.1) 形态 的 逻 
辑 回 归 函 数 和 我 们 在 前 面 介绍 过 的 最 大 炉 函 数 ， 在 函数 值 和 形态 上 有 着 
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共性 ,它们 的 训练 方法 也 是 类 似 的 ， 训 练 最 大 炳 模型 的 IIS 方法 可 以 直接 
用 于 训练 逻辑 回归 函数 的 参数 。 


一 个 广告 系统 中 ， 有 没有 很 好 的 点 击 率 预 估 机 制 决定 是 否 能 成 倍 提高 单 
位 搜索 的 广告 收入 。 而 目前 Google 和 腾讯 的 广告 系统 对 于 点 击 率 预 估 的 
方法 ， 都 是 采用 逻辑 回归 函数 来 预测 的 。 


3 小 结 


逻辑 回归 模型 是 一 种 将 影响 概率 的 不 同 因素 结合 在 一 起 的 指数 模型 。 和 
很 多 指数 模型 ( 例如 最 大 炉 模 型 ) 一 样 ， 它 们 的 训练 方法 相似 ， 都 可 以 
采用 通用 和 迭代 算法 GIS 和 改进 的 迭代 算法 1IS 来 实现 。 除 了 在 信息 处 理 
中 的 应 用 ， 逻 辑 回归 模型 还 广泛 应 用 于 生物 统计 。 
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第 29 章 各 个 击破 算法 和 Google 云 计 算 
的 基础 


云 计算 在 七 年 前 (2005 年 ) 被 划 了 一 个 大 大 的 问号 ， 今 天 ， 连 非 IT 行业 
的 人 都 开始 谈论 这 个 问题 。2011 年 ,我 至 少 参加 了 七 八 个 云 计 算 的 研讨 会 、 
标准 制定 会 。 总 的 感觉 是 ， 大 家 对 云 计算 的 表层 多 有 了 解 ， 但 是 ， 对 技术 
的 关键 点 了 解 甚 少 。 


云 计 算 技 术 涉 及 的 面 很 广 , 从 存储 、 计 算 、 资 源 的 调度 到 权限 的 管理 等 ， 
有 兴趣 的 读者 可 以 参看 拙 作 《浪潮 之 十》 中 关于 云 计 算 的 一 章 ， 这 里 不 再 
著述 。 云 计算 的 一 个 关键 问题 是 ， 如 何 把 一 个 非常 大 的 计算 问题 ， 自 动 分 
解 到 许多 计算 能 力 不 是 很 强大 的 计算 机 上 ， 共 同 完成 。Google 针对 这 个 问 
题 给 出 的 解决 工具 是 一 个 叫 MapReduce 的 程序 ， 其 根本 原理 就 是 计算 机 
算法 上 很 常见 的 分 治 算法 ( Divide-and-Conquer ), 我 称 之 为 “各 个 击破 "法 。 


1 分 治 算法 的 原理 


分 治 算法 是 计算 机 科学 中 最 漂亮 的 工具 之 一 。 它 的 基本 原理 是 : 将 一 个 
复杂 的 问题 ， 分 成 若干 个 简单 的 子 问题 进行 解决 。 然 后 ， 对 子 问题 的 结 
果 进 行 合并 ， 得 到 原 有 问题 的 解 。 
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1 
推导 如 下 ; 假定 N 个 
元 素 的 数组 归并 排 
序 的 算法 计算 时 间 
是 7T(N), 那么 N/2 个 
元 素 的 子 数组 排序 
时 间 为 T(N/2), 合 
并 过 程 的 计算 时 
闻 为 N 的 线性 函 
数 ， 即 0(N)。 因 
此 T(N) = 2T(N/2) 
+0(N)。 解 这 个 
递归 方程 ， 即 得 


TIN) = O(N .logN) » 


2 ”从 分 治 算法 到 MapReduce 


熟悉 计算 机 算法 的 读者 都 知道 归并 排序 ( Merge Sort ) 的 原理 。 假 定 要 
对 一 个 长 度 为 N 的 数组 au az,aa,…,aw 进行 排序 ， 如 果 采 用 对 a 和 两 两 
比较 的 办 法 ( 冒 泡 排序 ) ,复杂 度 是 O(N?) ， 不 仅 非常 竹 ( 慢 ) ， 而 且 
如 果 数 组 过 大 ( 比如 几 千 亿 个 元 素 ) ， 也 无 法 在 一 台 计算 机 上 完成 。 用 
分 治 算法 ， 是 将 这 个 大 数组 分 为 几 份 ， 比 如 一 分 为 二 ， 变 为 aa, 92,…,an/z 
和 awyz+1,an/z+2,…,Qan， 对 每 一 半分 别 进行 排序 。 当 这 两 个 子 数组 排序 完 
华 后 ， 把 它们 从 头 到 尾 合 并 ， 得 到 原来 数组 的 排序 结果 。 对 应 的 大 小 正 
好 是 原 数组 一 半 大 ， 只 需要 进行 1/4 的 比较 即 可 。 当 然 ， 合 并 的 过 程 需 
要 一 些 额外 的 时 间 ， 但 是 和 省 下 的 时 间 相 比 可 以 忽略 不 计 。 同 理 ， 还 可 
以 对 前 后 每 一 半 子 数组 继续 分 解 成 更 小 的 子 数组 ， 直 到 子 数组 中 只 有 两 
个 元 素 。 这 种 做 法 大 大 缩短 了 整个 排序 的 时 间 ， 由 原来 的 0(N?) 简 化 到 
O(N .logN) '， 如 果 NN 是 一 百 万 ， 那 么 计算 时 间 将 缩短 一 万 倍 。 这 个 排序 
算法 在 每 个 子 任务 完成 后 ， 都 要 进行 合并 ， 归 并 排序 算法 也 因此 得 名 。 


Qn az … QaN ba bz … bn 
假定 矩阵 4 = Ga Qa2 … Gan 同时 矩阵 B = ba bzz … baw 
QnN1 QN2 … QNN bv b byw 


要 计算 它们 的 冬 积 C = A x B。 


Cnm = Done bm (29.1) 


做 上 面 的 计算 要 扫描 矩阵 A 中 n 行 的 所 有 元 素 ， 以 及 和 矩阵 8 中 m 列 的 所 
有 元 素 。 


7 
ca oy Cy 


CN1 … CN2 … CNN 
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am amy own) [bw “buy bow 


如 果 一 台 服 务 器 存 不 下 整个 大 数组 ， 这 件 事 就 变 得 很 麻烦 。 好 了 ， 让 
我 们 看 看 分 治 算法 怎么 做 。 首 先 ， 把 矩阵 4 按 行 拆 成 10 个 小 矩阵 
41,42,…,Ai0， 每 一 个 有 N/10 行 。 


A : NxN 的 矩阵 41,42>,…,4io:N/10xN 的 矩阵 
29.1 将 矩阵 4 按 行 分 成 10 个 子 和 矩阵 41,42,…, Aio 
分 别 计算 每 个 小 矩阵 4,4z> …,4io 和 了 的 乘积 , 不 失 一 般 性 , 以 4: 来 说 明 ， 
人 
Cnm 2 bim (29.3) 


这 样 就 在 第 一 台 计 算 机 上 计算 出 5 矩阵 中 前 1 / 10 行 的 元 素 。 


Er a x | 


图 29.2 第 一 台 服务 器 完成 前 十 分 之 一 的 计算 量 


同 理 ， 可 以 在 第 二 台 、 第 三 台 、…… 服务 器 上 计算 出 其 他 元 素 。 当然 ， 
细心 的 读者 可 能 会 发 现 , 抢 阵 忠和 矩阵 4 一 样 大 ,一 台 服务 器 同样 存 不 
下 。 不 过 没有 关系 ， 同 样 可 以 按 列 切 分 矩阵 马 ， 使 得 每 台 服 务 器 只 存 和 矩阵 
有 的 1/10。 上 述 公式 可 以 直接 使 用 ， 只 是 这 回 只 完成 了 Ca 的 I/10。 
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因此 ， 这 次 需要 100 台 服 务 器 而 不 是 原来 的 10 台 ， 于 是 ， 在 单机 上 无 法 
求解 的 大 问题 就 被 分 解 成 小 问题 得 以 解决 。 


-Ex 


Cs 


图 29.3 第 一 台 服务 器 的 工作 被 分 配 到 10 台中 ， 这 是 其 中 的 第 五 台 


在 上 面 的 例子 中 ， 增 加 了 服务 器 的 数量 ， 但 是 每 个 元 素 cnm 的 绝对 计算 
时 间 其 实 并 没有 减少 ( 这 点 不 像 归并 排序 ) 。 但 是 在 某 些 应 用 中 ， 增 加 
服务 器 数量 可 以 带 来 绝对 计算 时 间 的 减少 。 例如， 只 是 要 得 到 C 中 某 个 
特定 元 素 cnm 而 不 是 整个 5 矩阵， 这 种 需求 在 链接 分 析 或 者 日 志 处 理 中 有 
时 会 遇 到 ， 假 如 希望 通过 10 倍 的 机 器 能 够 缩短 计算 时 间 。 这 个 需求 也 可 
以 通过 分 治 算法 来 实现 ， 具 体 解 决 方法 如 下 : 


对 矩阵 4 按 行 切 分 ， 对 矩阵 也 按 列 切 分 。4: 是 4 的 前 十 分 之 一 行 ，42z 是 接 
下 来 的 十 分 之 一 ， 等 等 ， 对 B 也 是 如 此 。 然 后 用 同样 的 方法 计算 得 到 10 
个 中 间 结 果 cim,…, ch。 而 cnm 只 是 这 10 个 数字 相 加 的 结果 。 下 面 每 个 
结果 的 计算 量 都 是 最 后 结果 的 十 分 之 一 。 这 样 ， 我 们 就 用 10 倍 的 计算 机 
数量 将 计算 时 间 缩 短 了 10 倍 。 
阁 
chm = Bani * bim 
i=1 
zn 
0 
ci = BD oni bim 


i=N/10+1 ( Rh ) 


i=9N/10+1 
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这 就 是 MapReduce 的 根本 原理 。 将 一 个 大 任务 拆 分 成 小 的 子 任务 ， 并 
且 完 成 子 任务 的 计算 , 这 个 过 程 叫做 Map, 将 中 间 结 果 合并 成 最 终结 果 ， 
这 个 过 程 叫做 Reduce。 当 然 ， 如 何 将 一 个 大 矩阵 自动 拆 分， 保证 各 个 
服务 器 负载 均衡 ， 如 何 合并 返回 值 ， 就 是 MapReduce 在 工程 上 所 做 的 
事情 了 。 


在 Google 开发 MapReduce 之 前 ， 上 述 思想 已 经 在 很 多 高 强度 计算 上 使 
用 了 。 我 在 约翰 . 霍 普 金 斯 大 学 训练 最 大 模 型 时 就 遇 到 过 类 似 的 问题 。 
我 经 常 需 要 用 20 台 左 右 的 服务 器 ( 这 在 Google 云 计算 出 来 前 已 经 是 非 
常 奢侈 了 ) 同时 工作 。 那么 我 工作 的 方式 就 是 手 丁 将 这 些 大 矩阵 拆 开 并 且 
推送 (Push ) 到 不 同 的 服务 器 上 ， 然 后 把 结果 组 合 起 来 。 伯 克利 加 州 大 
学 提供 了 一 个 在 操作 系统 上 检测 各 个 子 任务 完成 情况 的 工具 ， 这 样 ， 我 
需要 自己 写 一 个 批 处 理 流水 线 来 完成 Map 和 Reduce 这 两 个 过 程 。 唯 一 
的 差别 是 ， 有 了 MapReduce 工具 ， 所 有 的 调度 工作 都 是 自动 完成 的 ， 而 
在 此 以 前 ， 我 是 自己 完成 计算 机 的 调度 工作 。 


3 小 结 


我 们 现在 发 现 Google 颇 为 神秘 的 云 计 算 中 最 重要 的 MapReduce 工具 ， 
其 实 原理 就 是 计算 机 算法 中 常用 的 “各 个 击破 ”法 ， 它 的 原理 原来 这 么 
简单 一 将 复杂 的 大 问题 分 解 成 很 多 小 问题 分 别 求 解 ， 然 后 再 把 小 问题 
的 解 合并 成 原始 问题 的 解 。 由 此 可 见 ， 在 生活 中 大 基 用 到 的 ,真正 有 用 
的 方法 往往 简单 而 又 朴实 。 


256 川 数学 之 美 


附录 计算 复杂 度 


计算 机 算法 的 效率 是 用 计算 复杂 度 ( Computational Complexity ) 
来 衡量 的 。 计 算 的 时 间 显 然 和 问题 的 大 小 有 关 。 比 如 对 10 000 个 
实数 的 排序 和 对 1 000 000 个 实数 的 排序 ， 所 用 时 间 显 然 不 同 。 因 
此 ， 问 题 的 大 小 在 衡量 计算 复杂 度 时 是 变量 ， 一 般 用 N 来 表示 。 
而 计算 量 是 N 的 一 个 函数 F(N)。 这 个 函数 的 边界 可 以 用 数学 上 的 
大 0 概念 来 限制 。 如 果 两 个 函数 f(N) 和 g(N) 在 大 0 概念 上 相同 ， 
也 就 是 说 当 N 趋 近 于 无 穷 大 时 ,它们 的 比值 只 差 一 个 常数 。 比 如 
f(N) = Nlog N,g(N) = 100.N .log(N)， 它 们 就 被 看 成 是 同一 数量 级 
的 。 同 样 ， 如 果 两 个 计算 机 算法 的 计算 在 大 0 概念 下 相同 ， 只 相差 
一 个 常数 ， 我 们 认为 它们 的 计算 复杂 度 相同 。 


计算 的 复杂 度 关键 看 00 里 面 的 函数 ， 而 不 是 常数 。 比 如 假定 两 个 算 
法 的 计算 量 分 别 是 10000 .Nlog (N) 和 0.00001. Nz ， 虽 然 前 者 的 常数 
大 得 多 , 但 是 当 N 趋 近 于 无 穷 大 时 ， 后 者 的 计算 量 是 前 者 的 无 穷 大 
倍 。 对 于 这 两 个 算法 ， 我 们 把 它们 的 计算 复杂 度 分 别 写作 OCNlog N) 
和 OCN?) 。 


如 果 一 个 算法 的 计算 量 是 NN 的 多 项 式 函 数 ( Polynomial Function)， 则 
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认为 这 个 算法 是 多 项 式 函 数 复杂 度 的 。 如 果 一 个 问题 存在 一 个 多 项 式 
函数 复杂 度 的 算法 , 则 这 个 问题 称 为 P 问 题 ( Polynomial 的 首 字母 ) 。 
如 果 计 算 量 比 N 的 多 项 式 函数 还 高 ,虽然 从 理论 上 讲 如 果 有 无 限 的 时 
间 也 是 可 以 计算 的 ( 图 灵机 概念 下 的 可 计算 ) ,但 是 实际 上 是 不 可 计 
算 的 。 这 时 称 它 为 非 多 项 式 ( Non-deterministic polynomial, 简称 
NP ) 问题 。 比 如 找到 每 一 步 围棋 的 最 佳 走 法 就 是 NP 问题 。 


如 果 一 个 NP 问题 ， 虽 然 它 找 不 到 多 项 式 函数 复杂 度 的 算法 ， 但 是 对 
于 一 个 算法 可 以 在 多 项 式 函 数 复杂 度 的 时 间 里 证 实 这 个 方法 正确 与 
否 ， 那么 这 个 问题 成 为 NP-Complete 问题 。 如 果 一 个 问题 ， 它 的 计 
算 复杂 度 至 少 是 NP-Complete， 那 么 它 被 称 为 NP-Hard 问题 ，NP- 
Complete 和 NP-Hard 的 关系 如 下 。 


NP -Hard 


图 A1 NP-Complete 问题 是 NP-Hard 问题 的 特例 


后 记 


很 多 朋友 问 我 ， 为 什么 我 会 想起 来 写 这 个 系列 ? 虽然 谷歌 黑板 报 的 本 
意 是 希望 我 从 一 个 Google 科学 家 的 角度 介绍 一 下 Google 的 技术 , 但 
是 我 更 希望 让 做 工程 的 年 轻 人 看 到 在 信息 技术 行业 正确 的 做 事情 方 
法 。 无 论 是 在 美国 还 是 在 中 国 ， 我 经 常 看 到 大 部 分 软件 工程 师 在 一 个 
未 知 领域 都 是 从 直观 感觉 出 发 ， 用 “ 凑 ” 的 方法 来 解决 问题 ， 在 中 国 
尤其 如 此 。 这 样 的 做 法 说 得 不 好 听 ,就 是 山寨 。 我 刚 到 Google 时 ,发 
现 Google 早期 的 一 些 算法 〈 比如 拼写 纠 错 ) 根本 没有 系统 的 模型 和 
理论 基础 ， 就 是 用 的 词组 或 者 词 的 二 元 组 凑 出 来 的 。 这 些 方法 比 没 
有 做 任何 事情 是 好 一 些 ， 但 是 几乎 没有 完善 和 提高 的 可 能 ， 而 且 使 
得 程序 的 逻辑 非常 混乱 。Google 成 长 壮大 后 ， 渐 渐 有 实力 从 世界 上 
最 好 的 大 学 招 理论 基础 非常 好 的 工程 师 ， 工 程 的 正确 性 得 到 了 很 好 保 
证 。2006 年 后 ， 我 指导 了 三 四 个 美国 名 校 的 研究 生 ， 把 Google 的 
拼写 纠 错 模型 用 隐 含 马尔 可 夫 模 型 的 框架 统一 起 来 。 在 那 几 年 里 ， 
Google 对 几乎 所 有 项 目的 程序 进行 了 重 写 ， 山 寨 的 东西 基本 上 看 不 
到 了 。 但 是 在 其 它 公 司 里 ， 包括 在 美国 一 些 还 挂 着 高 科技 头衔 的 三 流 
IT 公司 里 ， 这 种 情况 依然 很 普遍 。 在 国内 ， 创 业 的 小 公司 做 事情 重 
量 不 重 质 ， 倒 也 无 可 厚 非 ; 但 是 ， 上 了 市 、 有 了 钱 甚至 利润 成 为 了 在 
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世界 上 也 数 得 上 的 公司 ， 做 事情 依然 如 此 ， 就 让 人 觉得 境界 低 。 另 一 
方面 ， 这 些 公司 在 盖 大 楼 和 装修 高 管 的 办 公 室 上 很 快 超越 了 世界 上 的 
跨国 公司 。 这 就 像 一 个 人 有 了 钱 ， 穿 金 戴 银 ， 内 在 的 学 问 和 修养 却 没 
有 提高 一 样 。 因 此 我 写 这 些 东西 也 是 希望 我 们 这 些 IT 公司 的 工程 主 
管 们 能 够 带领 自己 的 部 门 提高 工程 的 水 平 。 


(无 意 中 ) 采用 错误 的 模型 在 特定 的 场合 ， 或 许 勉强 有 效 ， 就 比如 我 们 
介绍 的 地 心 说 一 样 ， 毕 竟 也 使 用 了 几 千年 。 但 是 ， 错 误 的 模型 终究 是 远 
离 真 理 的 ， 其 负面 影响 会 渐渐 表现 出 来 。 其 结果 不 仅仅 在 于 远离 了 正确 
的 结果 ， 而 且 常 常 把 原本 简单 的 事情 弄 得 很 复杂 ， 以 至 于 最 终 要 崩溃 ( 地 
心 说 对 于 日 心 说 就 是 如 此 ) 。 


正确 的 理论 和 方法 有 一 个 被 认识 的 过 程 。 任 何事 物 都 有 它 的 发 展 规律 ， 而 
这 些 规律 都 是 可 以 认识 的 ， 在 信息 科学 领域 也 不 例外 。 当 我 们 认识 了 规 
律 后 ， 就 应 该 自觉 地 在 工作 中 遵循 规律 而 不 要 违背 规律 。 香 农 博士 就 是 
揭示 了 信息 科学 发 展 规律 的 人 ， 它 的 信息 论 在 很 大 程度 上 指出 了 我 们 今 
天 信息 处 理 和 通信 根本 的 规律 性 。 这 里 ， 通 信和 包括 人 类 的 一 切 交 流 ， 包 
括 自然 语言 处 理 的 所 有 应 用 。 而 当初 我 写 这 个 系列 博客 ， 就 是 要 介绍 这 
些 信息 处 理 的 规律 性 。 


当然 ， 将 数学 的 东西 讲 清楚 让 外 行 都 能 读 懂 是 一 件 非常 难 的 事情 。 我 自 
认为 自己 是 一 个 能 深入 浅 出 的 人 ， 但 是 当 我 第 一 次 将 所 写 的 几 章 送 给 非 
工程 专业 的 读者 阅读 时 ， 他 们 还 是 表示 非常 费劲 。 因 此 , 我 后 来 下 了 很 多 
功夫 将 这 个 系列 写 得 浅显 易 懂 ， 这 样 很 多 细节 只 能 省 略 ， 我 并 不 满意 。 离 
开 Google 后 ， 写 作 起 来 约束 相对 少 了 些 ， 因 此 这 次 改写 成 实体 书 时 ， 可 
以 多 介绍 一 些 细节 。 同 时, 由 于 篇 幅 不 受 约束 , 我 也 可 以 多 提供 一 些 细节 ， 
以 照顾 一 下 工程 背景 较 好 的 、 愿 意 了 解 细节 的 读者 。 当 我 完成 这 本 实体 
书 时 ， 我 发 现 全 书 的 内 容 完全 重 写 了 一 遍 。 


对 于 非 IT 的 从 业 人 员 ， 我 也 希望 这 本 书 能 够 成 为 他 们 茶余饭后 消 遗 的 科 
普 读物 。 透 过 对 IT 规律 性 的 认识 ,读者 可 以 举一反三 地 总 结 、 学 习 、 认 
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识 和 自觉 使 用 自己 工作 中 的 规律 性 ， 这 样 有 助 于 将 自己 的 境界 提升 一 个 
层次 。 


对 我 这 次 写作 帮助 最 大 的 是 两 本 书 和 一 个 节目 。 我 在 初中 时 读 了 《从 1 
到 无 穷 大 》'， 介 绍 宇宙 的 科普 读物 。 作 者 G ' 件 莫 夫 ( George Gamow ) 
是 美 籍 俄 毅 著名 物理 学 家 ， 他 花 了 很 多 时 间 创 作 科 普 读 物 ， 影 响 了 一 代 
人 。 第 二 本 书 是 物理 学 家 霍金 的 《时 间 简 史 》， 和 霍金 把 深奥 的 宇宙 学 原 
理 用 最 简单 的 语言 讲 出 来 ， 让 这 部 科普 读物 称 为 全 球 的 畅销 书 。 影 响 我 
的 一 个 节目 是 美国 主持 人 摩根 弗 里 曼 的 “穿越 虫 洞 ”。 我 的 写作 大 多 
是 在 飞机 上 完成 的 , 写作 累 了 便 看 看 电视 节目 , 一 次 碰巧 找到 “穿越 虫 润 ” 
这 个 节目 。 弗 里 曼 把 当今 最 前 沿 的 物理 学 做 成 了 用 每 个 人 都 能 懂 的 节 
目 。 节 目 中 有 包括 很 多 诺 贝 尔 奖 在 内 的 一 流 物理 学 家 和 数学 家 介绍 他 们 
的 工作 ， 这 些 人 有 一 个 共同 的 本 领 ， 就 是 把 他 们 自己 领域 最 深奥 的 道理 
用 很 简单 的 比喻 介绍 清楚 。 我 想 这 可 能 是 他 们 成 为 世界 顶级 科学 家 的 原 
因 ， 他 们 一 方面 对 自己 的 领域 非常 精通 ， 同 时 他 们 能 把 道理 讲 清楚 。 世 
界 上 最 好 的 学 者 总 是 可 以 深入 浅 出 把 大 道理 讲 给 外 行 听 , 而 不 是 故弄玄虚 
把 简单 的 问题 复杂 化 。 因 此 ,在 写 这 本 书 的 时 候 ， 我 自己 一 直 以 瞧 金 、 伽 
莫 夫 为 榜样 ， 力 图 将 数学 之 美展 现 给 所 有 的 ， 而 不 仅仅 是 专业 的 读者 。 为 
了 方便 读者 利用 茶 前 饭 后 的 时 间 阅 读 ， 我 尽 可 能 地 做 到 每 一 章 之 间 相 对 
独立 自 成 一 体 ， 这 样 读 起 来 不 会 太 累 ， 我 知道 让 大 部 分 读者 从 头 到 尾 读 
一 本 以 数学 为 主 的 书 是 几乎 不 可 能 的 。 


吴军 


2012 年 4 月 于 深圳 


1 
原 书 名 “OneTwo, 
Three Infinity” 
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A 

Alpha 服务 路 100 

Altavista ( 搜索 引擎 ) 100 

Android ( 开源 操作 系统 ) 人 1 

Ascorer ( Google 的 排序 算法 ) 121 

AT&T 实验 室 ( AT&T Labs ) ”78,198 

阿尔 弗 雷 德 斯 伯 格 特 ( Alfred Spector ) 3 

阿兰 .图 灵 (AlanTuring) 16 

阿 米 特 * 辛 格 (Amit Singhal ) 121 

艾 里 克 ' 布莱尔 ( EricBrill ) ”197,200,202 

艾 伦 : 纽 维尔 (Allen Newell) 了 

安 德 烈 ' 马尔 可 夫 ( Andrey Markov )( 俄 
罗斯 数学 家 ) 52 

安德鲁 . 维特 比 ( Andrew Viterbi ) 227 


B 

Basis Technology 公司 ( Basis Technolo- 
By) 44 

BCIR 算法 75,76 

巴菲特 ( Warren Buffet ) 78,182 

鲍 姆 ( Leonard E. Baum ) (美国 数学 家 ) 

吕 

鲍 姆 - 韦 尔 奇 算法 ( Baum-Welch Algori- 
thm) 52,57,58,243 

贝尔 实验 室 ( Bell Labs ) ”67.76,198 

贝克 夫妇 (JamesandJanetBaker) 5575 

贝 叶 斯 公式 ( Bayesian Formula) 51212, 
23 


贝 叶 斯 网 络 ( Bayesian Networks ) ”211 
~218,223 

本 … 伯 南 克 ( Ben Bernanke ) 20,21,27, 
28,220 

比尔 默 (Jeff8ilmer ) (教授 ) 215,218 

比特 ( Bit ) 60~62,143,144,190, 206~ 
208 

彼得 布朗 ( PeterBrown ) 24,75 

毕 达 格拉 斯 ( Pythagoras ) 173 

边缘 分 布 ( Marginal Distribution ) ”223 

边缘 概率 ( Marginal Probability ) ”30 

遍历 算法 ( Traverse ) ”89-92 

表决 权 (Voting Power ) 101 

宾夕法尼亚 大 学 ( University of Pennsyl- 
vania ) “19, 25, 67, 115, 124, 179, 
197~200,225 

宾夕法尼亚 大 学 LDC 语料库 ( Linguistic 
Data Consortium ) 198 

波 尔 (LBahl) 75,76 

伯 顿 * 布 隆 (Burton Bloom ) 206 

伯 克 希 外 A 撤 韦 ( Berkshire Hathaway ) 182 

博弈 论 (Game Theory) 161,216 

布尔 ( George Boole ) 82-87,105 

布尔 运算 (Boolean Operation) 82, 
84~87, 89,105 

布朗 大 学 ( Brown University ) “219 

布 隆 过 滤器 ( Bloom Filter ) ”205-210 

布 瓦尔 ( Alexis Bouvard ) ( 法 国 天 文学 
家 ) 配 
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Cc 

CDMA2000 ( 3G 通信 标准 ) 236 

CLSP 实验 室 ( Center for Language and 
Speech Processsing ) “77.227 

CoNLL ( Conference on Computational 
Natural Language ) 202 

Cookie ( 浏览 器 ) 145 

CopyCat (拷贝 猫 ) 148 

曹 培 ( Pei cao ) 208 

查 菲 ( D5L 之 父 ， 美 国 工程 院 院士 ) 
237 

查询 ( Query ) 27,47,84,85,87,99,100, 
102, 105,106, 108, 114, 128,146, 246 

长 程 的 依赖 性 ( Long Distance Depend - 
eny) 33 

超 链接 ( Hyperlinks ) ”92,96 

陈省身 (教授) 24 

出 链 (Out Link) 166 

词 频 ( 关键 词 的 频率 ， 单 文本 词汇 频率 ) 
(Term Frequency ) 106.107.190 

单 文本 词 频 / 逆 文本 频率 指数 ( TF-IDF ) 
68, 105, 107~110, 128, 129, 138, 151 176, 
194,239 

词性 ( Part of Speech ) 18,19,24,225 

词性 标注 ( Part of Speech Tagging ) 20, 
21,58,180,198, 203 

茨 威 格 (Geoffrey Zweig ) ( 博士 ) 
215,218 


D 

DARPA ( Defense Advanced Research 
Projects Agency ) 198 

DEC ( 数字 设备 公司 ) 100 

Dragon 公司 75 


达 拉 皮 垂 李 生 兄 弟 (5. Della Pietra & V 
Della Pietra ) 181182 

达 诺 奇 (上 N.Darroch ) 181 

达 特 茅 斯 学 院 17,22 

大 词汇 量 连 续 语音 识别 系统 Sphinx 55, 
69 

大 数 定理 ( Law of Large Numbers ) ”30, 
33,233 

大 卫 . 雅 让 斯 基 ( David Yarowsky ) 
67.132.197 

迪奥 多 西 一 世 (Theodosius1) 5 

地 心 说 ( Geocentric ) ”169~174,176,191 

第 谷 (TychoBrahe) 175 

点 击 率 (CTR) (Click Through Rate ) 

246-249 

调度 系统 ( Scheduler) 96 

动态 规划 ( Dynamic Programming ) 
43,111,115~117,120,191,193, 228 

独立 磁盘 元 余 阵 列 (RAID) 125 

度 ( 图 ) (Degree) 94 

对 冲 基金 ( Hedge Fund ) ”24,180,182 

多 项 式 时 间 内 解决 的 问题 ( Polynomial 
Problem ) 20 

多 义 性 ( Disambiguation ) 14,22 


E 

EMNLP ( Conference on Empirical 
Methods on Natural Language 
Processing ) -202 

EM 过 程 ( Expectation-Maximization ) 
58,207 

额外 的 时 间 ( Overhead Time) 

办 斯 勒 (Jason Eisner ) ”200,201 

二 义 性 ( 歧义 性 ) (Ambiguation ) 


95,252 


42.45.66 
二 元 模型 ( Bigram Model ) 
37.38, 64,119.194195 


29, 30, 32, 


F 

翻译 模型 ( Translation Model ) 54 

梵 蒂 网 ( Vatican ) 174 

非 罗马 拼音 式 语言 ( Non-Roman Langu- 
ages) 185 

腓 尼 基 人 ( Phoenician ) 10 

费尔南多 皮 耶 尔 ( Fernando Pereira ) 
78, 114,123 

费 罗 ( David Filo ) ( 雅虎 联合 创始 人 ) 

99 

分 词 (Segmentation ) 

分 词 器 ( Segmentor ) 

分 界 符 (Delimit) 41 

冯 ' 诺 伊 蜡 (Von Neumann ) 145 

冯 座 (Pascale Fung ) (教授 ) 79 

凤 巢 系统 (百度 ) ”246 

弗 里 德里 克 ' 贾 里 尼克 ( 弗 莱 德 ) 
(Frederick Jelinek ) 23,39, 55 

弗 洛 里 安 (Radu Florian ) 132.133 


41~48,220, 228 
41-48 


G 

G1 (第 一 款 Android 手机 ) 1 

GB2312 189 

GBK 189 

Gparser ( Google 文法 分 析 器 ) 225 

伽利略 ( Galileo Galilei ) ”169,175 

改进 迭代 算法 (15 ) (Improved ltera- 
tive scaling ) 181 

概率 的 总 量 ( Probability Mass ) 35 

概率 图 模型 (Probabilistic Graph Mo- 


索引 呈 265 


del) 222,223 

钢琴 卷 (Piano Roll) 233 

高 德 纳 ( Donald Knuth ) 21 

高 斯 白 噪音 ( Gaussian White Noise ) 

165 

高 通 公 司 (Qualcomm ) 227,236,237 

哥 白 尼 (Nicolaus Copernicus) 169, 
T74 

哥伦比亚 大 学 ( Columbia University ) 

78,79,202 

哥 尼 斯 堡 ( Konigsberg) 89,90,93,94 

格 利 高 里 日 历 (Gregory Calendar ) 
T3 

格 利 高 里 十 三 世 ( Pope Gregory XIll)( 教 
皇 ) 173,174 

葛 显 平 (博士 ) 44 

个 性 化 的 语言 模型 ( Personalized Langu- 
age Models ) 193,194 

公 钥 (PublicKey) 159 

共 辆 矩阵 ( Conjugate Matrix ) 141 

构词法 ( Morphologic ) 18 

古 德 (11.Good ) 34,35,37 

古 德 - 图 灵 估计 ( Good-Turing Estimate ) 
343537 

关 键 词 (key Word ) 63,84,86,99, 
105.106,108~110.114,163,164, 248 

广度 优先 搜索 ( BF5 ) ( Breadth -First 
Search ) 9 

广告 实验 室 (微软 ) (AdCenter Lab ) 203 

归并 排序 ( Merge Sort ) “252 

郭 进 42,44,48 

郭 士 纳 (Louis Gerstner) 77 

国防 工业 公司 雷神 ( Raythieon ) ”228 

国家 安全 局 (NSA) 123 
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H 

哈 希 表 ( Hash Table ) 
144,146,205,206 

哈 希 函数 ( Hash Function ) ”207,208 

海 蒂 拉 玛 尔 ( Hedy Lamarr) 233 

赫 伯 特 ' 西蒙 (Herbert Simon) 17 

赫 尔 曼 * 内 伊 (Herman Ney) 37 

享 利 西 (John Hennessey ) (RISC 的 发 
明和 人 ,斯 坦 福 大 学 校长 ) 237 

后 验 概率 ( Posterio Probability ) 217, 
218 

互联 网 漫游 者 (WWW Wanderer ) 93 

互信 息 (Mutualinformation ) “65-68.27 

怀特 兄弟 ( Wright Brothers ) 18 

黄道 (Ecliptic) 171 

浑 天 说 171 


93, 96, 97, 143, 


1 

IBM 阿 莫 顿 实验 室 (Amaden Research 
labs) 76 

ICASSP 39,74,76 

Iinktomi 100 


J 

Javascript ( 脚本 语言 ) 96,166 

机 器 翻译 (Machine Translation ) 7 
14, 18, 20, 24, 26, 27, 31, 44, 46, 49, 50, 
54, 55, 57, 66, 68, 69, 75, 180, 182, 198, 
222.228 

机 器 人 ( Robot ) 〈 网络 取 虫 ) 93 

机 器 学 习 ( Machine Learning ) 4.58, 
63, 122, 124, 199, 201 202, 217, 226, 
239, 242,243 


基于 变换 规则 的 机 器 学 习 方 法 ( Trans- 
Formation Rule Based Machine 
Learning) 202 

基于 加 密 的 伪 随 机 数 产生 器 ( 简称 
CSPRNG ) ( Cryptographically Secure 
Pseudo-Random Number Cenerator ) 

145 

吉姆 . 赛 莹 斯 (jim Simons) ”24 

集合 论 (SetTheory) 89 

计算 复杂 度 ( Computational Complexi- 
ty) 2422.17.134,.142.217,.219 

加 里 宁 格 勒 89 

加 权 的 有 限 状态 传感器 ( 简称 WFST ) 
(Finite State Transducer) 119 

加 权 图 ( Weighted Graph ) 15.116 

加 州 理工 学 院 (Caltech) 万 

雅 格 布 森 ( Roman Jakobson ) ”50,74 

假 阳性 ( False Positive ) ”207,208 

剑桥 大 学 (Cambridge University ) 
82,107,108, 200, 202 

焦耳 (james PJoute ) ( 物理 学 家 ) 
83 

解 卷 积 ( Deconvolution ) 165 

近世 代数 89 

纠 错 模型 ( Correction Model ) 54 

句法 分 析 ( Sentence Parsing ) 18~20, 
22,24,26,124,180, 219~223 

聚 类 ( Clustering ) 4,14,137,142,215,216, 
239~244 


卷 积 ( Convolution ) 165 201 


K 
卡 茨 (5.M. Katz ) (IBM 科学 家 ) 37 
39,125 


卡 茨 退 避 法 ( Katz backoff ) 37 

卡 内 基 - 梅 隆 大 学 (Carniege Mellon 
University ) 23,31,55,76,77 

凯 茨 ( Randy Katz ) (教授 , RAID 发 明 人 ) 
125 

恺 招 (Julius Caesar ) 155,156,160 

康德 (Immanuel kant ) ( 哲学 家 ) 
89 

康 奈 尔 大 学 ( Cornell University ) 74, 
108,125 

柯南 . 道 尔 ( Sir Arthur lgnatius Conan 
Doyle ) 156 

科 克 ( Cork ) (爱尔兰 ) 82 

可 信 度 ( Belief ) 212 

克拉 德 诺 (Kladno ) 72 

克 劳 第 斯 ' 托 勒 密 ( Claude Ptolemy )( 数 
学 家 ， 天 文学 家 ) ”169 

克 里 特 岛 (Crete ) 10 

空间 复杂 度 ( Space Complexity) 32 

空气 动力 学 18 

库 尔 贝克 ( Solomon Kullback) ”68 
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消除 歧义 性 ( Disambiguation ) 4, 14， 
42.186 

校 验 码 ( Check Code ) 12 
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一 元 模型 32,64,194 

隐 含 马尔 可 夫 模 型 (Hidden Markov 
Model ) 24, 49, 51~58, 75,192, 212, 
222,228, 229,243,244 


索引 川 271 


优先 级 队列 ( Priority Queue ) 96 

刀 金 . 查 尼 阿 克 (EugeneChamiak) 29 
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